論文の概要: Improving Dialogue Agents by Decomposing One Global Explicit Annotation with Local Implicit Multimodal Feedback
- arxiv url: http://arxiv.org/abs/2403.11330v2
- Date: Tue, 23 Apr 2024 03:17:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 18:56:32.413656
- Title: Improving Dialogue Agents by Decomposing One Global Explicit Annotation with Local Implicit Multimodal Feedback
- Title(参考訳): 局所的命令型マルチモーダルフィードバックによる1つのグローバル明示アノテーションの分解による対話エージェントの改善
- Authors: Dong Won Lee, Hae Won Park, Yoon Kim, Cynthia Breazeal, Louis-Philippe Morency,
- Abstract要約: 本稿では,LLMに基づく対話エージェントをグローバルな(対話レベル)報酬に基づいて整列する手法について述べるとともに,自然に発生するマルチモーダル信号も考慮する。
我々は,GELI手法の性能を評価するために定量的,質的な人間の研究を行い,ベースライン手法と比較して,様々な対話的指標に一貫した改善が見られた。
- 参考スコア(独自算出の注目度): 71.55265615594669
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We describe an approach for aligning an LLM-based dialogue agent based on global (i.e., dialogue-level) rewards, while also taking into account naturally-occurring multimodal signals. At a high level, our approach (dubbed GELI) learns a local, turn-level reward model by decomposing the human-provided Global Explicit (GE) session-level reward, using Local Implicit (LI) multimodal reward signals to crossmodally shape the reward decomposition step. This decomposed reward model is then used as part of the standard RHLF pipeline improve an LLM-based dialog agent. We run quantitative and qualitative human studies to evaluate the performance of our GELI approach, and find that it shows consistent improvements across various conversational metrics compared to baseline methods.
- Abstract(参考訳): 本稿では,LLMに基づく対話エージェントをグローバルな(対話レベル)報酬に基づいて整列する手法について述べるとともに,自然に発生するマルチモーダル信号も考慮する。
高いレベルにおいて,本手法(GELI)は,人間が提供するGlobal Explicit(GE)セッションレベルの報酬を分解し,局所的インプリシット(LI)マルチモーダル報酬信号を用いて,報酬分解ステップを相互に整形することで,局所的なターンレベルの報酬モデルを学習する。
この分解された報酬モデルは、LLMベースのダイアログエージェントを改善した標準RHLFパイプラインの一部として使用される。
我々は,GELI手法の性能を評価するために定量的,質的な人間の研究を行い,ベースライン手法と比較して,様々な対話的指標に一貫した改善が見られた。
関連論文リスト
- EPO: Hierarchical LLM Agents with Environment Preference Optimization [25.682236898002]
本稿では,複雑なタスクを管理可能なサブゴールに分解する階層的フレームワークを提案する。
注釈のないデータセットのためのトレーニング信号を作成するという課題に対処するため,マルチモーダル環境フィードバックを利用して報酬信号を自動的に生成する報酬モデルを開発した。
論文 参考訳(メタデータ) (2024-08-28T18:44:02Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Multi-turn Reinforcement Learning from Preference Human Feedback [41.327438095745315]
RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデルと人間の嗜好を整合させる標準的なアプローチとなっている。
既存のメソッドは、選好を単一の決定(ターン)レベルでエミュレートすることで機能する。
本研究では,2つの全会話間の嗜好フィードバックから強化学習のための新しい手法を開発する。
論文 参考訳(メタデータ) (2024-05-23T14:53:54Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - Unlocking the Potential of User Feedback: Leveraging Large Language
Model as User Simulator to Enhance Dialogue System [65.93577256431125]
本稿では,ユーザガイド応答最適化 (UGRO) という代替手法を提案し,タスク指向の対話モデルと組み合わせる。
このアプローチでは、アノテーションのないユーザシミュレータとしてLLMを使用して対話応答を評価し、より小型のエンドツーエンドTODモデルと組み合わせる。
提案手法は従来のSOTA(State-of-the-art)よりも優れている。
論文 参考訳(メタデータ) (2023-06-16T13:04:56Z) - Taming Continuous Posteriors for Latent Variational Dialogue Policies [1.0312968200748118]
我々は,潜在作用RLに対するガウス変分後部を再検討し,分類学よりも優れた性能が得られることを示す。
トレーニング手順を簡素化し、潜伏する対話ポリシーを標準化する方法を提案する。
論文 参考訳(メタデータ) (2022-05-16T12:50:32Z) - Imperfect also Deserves Reward: Multi-Level and Sequential Reward
Modeling for Better Dialog Management [17.168214640974337]
タスク指向ダイアログシステムでは、強化学習ベースのダイアログ管理モジュールのトレーニングは、rlのスパース報酬によるサンプル効率の低下と収束速度の低下に苦しむ。
我々は,報酬をドメイン,アクタ,スロットという3レベル階層に分解する多段階報酬モデリング手法を提案する。
論文 参考訳(メタデータ) (2021-04-10T12:20:23Z) - Semi-Supervised Dialogue Policy Learning via Stochastic Reward
Estimation [33.688270031454095]
我々は、ターンバイターンの報酬を提供するための最適なポリシーのステートアクションペアから学ぶために報酬学習を導入する。
このアプローチには、人間対人間対話の完全なステートアクションアノテーションが必要である。
半教師付き政策学習のための新たな報酬学習手法を提案する。
論文 参考訳(メタデータ) (2020-05-09T06:28:44Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。