Fugu-MT 論文翻訳(概要): Learning to Clarify by Reinforcement Learning Through Reward-Weighted Fine-Tuning

論文の概要: Learning to Clarify by Reinforcement Learning Through Reward-Weighted Fine-Tuning

arxiv url: http://arxiv.org/abs/2506.06964v1
Date: Sun, 08 Jun 2025 01:59:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-10 16:33:10.587616
Title: Learning to Clarify by Reinforcement Learning Through Reward-Weighted Fine-Tuning
Title（参考訳）: リワード重み付き微調整による強化学習の学習
Authors: Subhojyoti Mukherjee, Viet Dac Lai, Raghavendra Addanki, Ryan Rossi, Seunghyun Yoon, Trung Bui, Anup Rao, Jayakumar Subramanian, Branislav Kveton,
Abstract要約: 本研究では,QAエージェントにおける質問を明確にすることを学ぶ。我々は、報酬重み付けされた教師付き微調整と見なせるオフラインRL目標を提案し、分析する。
参考スコア（独自算出の注目度）: 40.782484067489605
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Question answering (QA) agents automatically answer questions posed in natural language. In this work, we learn to ask clarifying questions in QA agents. The key idea in our method is to simulate conversations that contain clarifying questions and learn from them using reinforcement learning (RL). To make RL practical, we propose and analyze offline RL objectives that can be viewed as reward-weighted supervised fine-tuning (SFT) and easily optimized in large language models. Our work stands in a stark contrast to recently proposed methods, based on SFT and direct preference optimization, which have additional hyper-parameters and do not directly optimize rewards. We compare to these methods empirically and report gains in both optimized rewards and language quality.
Abstract（参考訳）: 質問応答(QA)エージェントは、自然言語で表される質問に自動的に答える。本研究では,QAエージェントにおける質問を明確にすることを学ぶ。本手法の主な考え方は,質問を明確にした会話をシミュレートし,強化学習(RL)を用いて学習することである。 RLを実用的なものにするために、我々は、報酬重み付き教師付き微調整(SFT)とみなすことができ、大規模言語モデルで容易に最適化できるオフラインRL目標を提案し、分析する。我々の研究は、SFTと直接選好最適化に基づく最近提案された手法とは対照的であり、追加のハイパーパラメータを持ち、報酬を直接最適化しない。我々はこれらの手法を実証的に比較し、最適化された報酬と言語品質の両方の利得を報告する。

関連論文リスト

Prompting Large Language Models with Rationale Heuristics for Knowledge-based Visual Question Answering [6.745948705869626]
我々は,先行手法がLarge Language Models (LLM) の容量を十分に活性化していないことを論じる。本稿では,知識に基づく VQA のための LLM と Rationale Heuristics を併用した PLRH というフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-22T09:14:35Z)
Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning [62.984693936073974]
価値に基づく強化学習は、幅広いマルチターン問題に対する効果的なポリシーを学ぶことができる。現在の値ベースのRL法は、特に大規模な言語モデルの設定にスケールすることが困難であることが証明されている。本稿では,これらの欠点に対処する新しいオフラインRLアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-11-07T21:36:52Z)
Putting People in LLMs' Shoes: Generating Better Answers via Question Rewriter [17.736962215696366]
本稿では,単一ラウンドのインスタンスレベルのプロンプト最適化について述べる。ブラックボックスLSMに対する人間の質問の信頼性を高めることにより、質問書き直しは生成した回答の品質を向上させる。複数のブラックボックスLSMと長文質問応答データセットを用いた実験により,本手法の有効性が示された。
論文参考訳（メタデータ） (2024-08-20T06:24:47Z)
Reinforcement Replaces Supervision: Query focused Summarization using Deep Reinforcement Learning [43.123290672073814]
クエリに基づいて文書から要約を生成するシステムを扱う。 Reinforcement Learning (RL) が自然言語生成のための Supervised Learning (SL) の一般化を提供するという知見に触発されて,本課題に RL ベースのアプローチを用いる。我々は、ROUGE、BLEU、Semantic similarityといった様々な報酬信号に基づいて訓練された複数のポリシーグラディエントネットワークを開発する。
論文参考訳（メタデータ） (2023-11-29T10:38:16Z)
Query-Dependent Prompt Evaluation and Optimization with Offline Inverse RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。このような最適化では、以前見過ごされたクエリ依存の目的を特定します。本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文参考訳（メタデータ） (2023-09-13T01:12:52Z)
LaGR-SEQ: Language-Guided Reinforcement Learning with Sample-Efficient Querying [71.86163159193327]
大規模言語モデル(LLM)は、最近、テキストを介してコンテキスト対応の応答を提供するという、印象的な能力を実証した。この能力は、パターン補完に関連するシーケンシャルな意思決定タスクにおいて、妥当なソリューションを予測するために使われる可能性がある。第一強化学習(RL)エージェントによって部分的に完了したタスクに対する解を提案するために,LLMのこの予測能力を利用するLaGRを紹介した。
論文参考訳（メタデータ） (2023-08-21T02:07:35Z)
EAGER: Asking and Answering Questions for Automatic Reward Shaping in Language-guided RL [32.40102627844589]
強化学習(Reinforcement Learning, RL)は、長い地平線とまばらな報酬タスクであり、多くのトレーニングステップを必要とすることで知られている。本稿では,エージェントが汎用言語目標から補助目的を抽出する自動報酬形成手法を提案する。
論文参考訳（メタデータ） (2022-06-20T09:29:13Z)
Learning to Ask Conversational Questions by Optimizing Levenshtein Distance [83.53855889592734]
明示的な編集動作によって最小レベンシュテイン距離(MLD)を最適化する強化反復シーケンス編集(RISE)フレームワークを導入する。 RISEは会話の特徴に関連するトークンに注意を払うことができる。 2つのベンチマークデータセットの実験結果から、RISEは最先端の手法を大幅に上回っていることがわかった。
論文参考訳（メタデータ） (2021-06-30T08:44:19Z)
Information Directed Reward Learning for Reinforcement Learning [64.33774245655401]
我々は、標準rlアルゴリズムが可能な限り少数の専門家クエリで高い期待値を達成することができる報酬関数のモデルを学ぶ。特定のタイプのクエリ用に設計された以前のアクティブな報酬学習方法とは対照的に、IDRLは自然に異なるクエリタイプに対応します。我々は,複数の環境における広範囲な評価と,異なるタイプのクエリでこの結果を支持する。
論文参考訳（メタデータ） (2021-02-24T18:46:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。