論文の概要: Aligning Dialogue Agents with Global Feedback via Large Language Model Reward Decomposition
- arxiv url: http://arxiv.org/abs/2505.15922v1
- Date: Wed, 21 May 2025 18:19:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:47.860637
- Title: Aligning Dialogue Agents with Global Feedback via Large Language Model Reward Decomposition
- Title(参考訳): 大言語モデル逆分解による大域的フィードバックを考慮した対話エージェントの調整
- Authors: Dong Won Lee, Hae Won Park, Cynthia Breazeal, Louis-Philippe Morency,
- Abstract要約: 本稿では,対話エージェントを協調する大規模言語モデルに基づく報酬分解フレームワークを提案する。
凍結した事前訓練された大きな言語モデルの推論能力を利用して、きめ細かい局所的な暗黙の報酬を推測する。
我々は、テキストのみとマルチモーダルの両方の変種を、最先端の報酬分解法に対して評価する。
- 参考スコア(独自算出の注目度): 57.732148933412425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a large language model based reward decomposition framework for aligning dialogue agents using only a single session-level feedback signal. We leverage the reasoning capabilities of a frozen, pretrained large language model (LLM) to infer fine-grained local implicit rewards by decomposing global, session-level feedback. Our first text-only variant prompts the LLM to perform reward decomposition using only the dialogue transcript. The second multimodal variant incorporates additional behavioral cues, such as pitch, gaze, and facial affect, expressed as natural language descriptions. These inferred turn-level rewards are distilled into a lightweight reward model, which we utilize for RL-based fine-tuning for dialogue generation. We evaluate both text-only and multimodal variants against state-of-the-art reward decomposition methods and demonstrate notable improvements in human evaluations of conversation quality, suggesting that LLMs are strong reward decomposers that obviate the need for manual reward shaping and granular human feedback.
- Abstract(参考訳): 本稿では,1つのセッションレベルのフィードバック信号のみを用いて対話エージェントを調整するための,大規模言語モデルに基づく報酬分解フレームワークを提案する。
凍結学習された大規模言語モデル(LLM)の推論機能を利用して、グローバルなセッションレベルのフィードバックを分解することで、きめ細かい局所的な暗黙の報酬を推測する。
最初のテキストのみの変種は、LLMに対して、対話書き起こしのみを使用して報酬分解を行うよう促す。
第2のマルチモーダル変種は、自然言語の記述として表現されるピッチ、視線、顔の影響などの追加の行動的手がかりを取り入れている。
これらの推定ターンレベルの報酬を軽量な報酬モデルに蒸留し、RLに基づく微調整を対話生成に用いる。
テキストのみとマルチモーダルの両方を、最先端の報酬分解法に対して評価し、会話品質の人的評価において顕著な改善を示した結果、LLMは、手動報酬形成や粒度のフィードバックの必要を回避できる強力な報酬分解器であることが示唆された。
関連論文リスト
- LLMs are Superior Feedback Providers: Bootstrapping Reasoning for Lie Detection with Self-Generated Feedback [33.14770105185958]
大型言語モデル (LLM) は人間に似た対話やテキストの理解に優れる。
本研究では,自己生成フィードバックを活用し,嘘検出のためのLPM推論能力を向上させるブートストラップフレームワークを提案する。
本稿では,外交ゲームにおける裏切・偽装検出のためのフレームワークの適用について検討し,プロの人間プレイヤーからのフィードバックと比較する。
論文 参考訳(メタデータ) (2024-08-25T18:47:55Z) - FGAIF: Aligning Large Vision-Language Models with Fine-grained AI Feedback [16.24562885483636]
ファイングレード人工知能フィードバック(FGAIF)によるLVLM(Large Vision-Language Models)のモダリティ調整手法を提案する。
具体的には、まずAIツールを用いて、応答の各セグメントの幻覚のタイプを予測し、細かなフィードバックの収集を行う。次に、収集された報酬データに基づいて、3つの特別な報酬モデルを訓練し、密集した報酬を生成する。最後に、新しいきめ細かいフィードバックモジュールをプロキシポリシー最適化(PPO)アルゴリズムに統合する。
論文 参考訳(メタデータ) (2024-04-07T19:00:45Z) - Improving Dialogue Agents by Decomposing One Global Explicit Annotation with Local Implicit Multimodal Feedback [71.55265615594669]
本稿では,LLMに基づく対話エージェントをグローバルな(対話レベル)報酬に基づいて整列する手法について述べるとともに,自然に発生するマルチモーダル信号も考慮する。
我々は,GELI手法の性能を評価するために定量的,質的な人間の研究を行い,ベースライン手法と比較して,様々な対話的指標に一貫した改善が見られた。
論文 参考訳(メタデータ) (2024-03-17T20:21:26Z) - Beyond Sparse Rewards: Enhancing Reinforcement Learning with Language
Model Critique in Text Generation [29.6763730290473]
強化学習は、言語モデルと人間の嗜好のような区別できない報酬信号とを一致させることができる。
本稿では,中間段階の報酬を生成するために,大規模言語モデルの批判能力を利用する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-14T22:05:11Z) - JoTR: A Joint Transformer and Reinforcement Learning Framework for
Dialog Policy Learning [53.83063435640911]
対話政策学習(DPL)は対話モデリングの重要な構成要素である。
フレキシブルな対話行動を生成するための新しいフレームワークであるJoTRを導入する。
従来の方法とは異なり、JoTRはよりダイナミックで適応可能な対話アクション生成を可能にするワードレベルのポリシーを定式化している。
論文 参考訳(メタデータ) (2023-09-01T03:19:53Z) - SimOAP: Improve Coherence and Consistency in Persona-based Dialogue
Generation via Over-sampling and Post-evaluation [54.66399120084227]
大規模コーパスで訓練された言語モデルは、オープンドメイン対話において驚くほど流動的な結果を生み出すことができる。
ペルソナに基づく対話生成タスクでは、一貫性と一貫性が言語モデルにとって大きな課題である。
オーバーサンプリングとポスト評価という2段階のSimOAP戦略が提案されている。
論文 参考訳(メタデータ) (2023-05-18T17:23:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。