論文の概要: Direct Multi-Turn Preference Optimization for Language Agents
- arxiv url: http://arxiv.org/abs/2406.14868v5
- Date: Sun, 23 Feb 2025 20:00:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:49:59.663916
- Title: Direct Multi-Turn Preference Optimization for Language Agents
- Title(参考訳): 言語エージェントの直接マルチツーリング選好最適化
- Authors: Wentao Shi, Mengqi Yuan, Junkang Wu, Qifan Wang, Fuli Feng,
- Abstract要約: エージェントタスクに対するLLM(Large Language Models)の適用は、言語エージェントの開発において重要である。
直接選好最適化(DPO)は、複合誤差の緩和によるこの適応のための有望な手法である。
DPOをマルチターンタスクに適用することは、パーティション関数をキャンセルできないため、課題を提起する。
- 参考スコア(独自算出の注目度): 44.02877245158347
- License:
- Abstract: Adapting Large Language Models (LLMs) for agent tasks is critical in developing language agents. Direct Preference Optimization (DPO) is a promising technique for this adaptation with the alleviation of compounding errors, offering a means to directly optimize Reinforcement Learning (RL) objectives. However, applying DPO to multi-turn tasks presents challenges due to the inability to cancel the partition function. Overcoming this obstacle involves making the partition function independent of the current state and addressing length disparities between preferred and dis-preferred trajectories. In this light, we replace the policy constraint with the state-action occupancy measure constraint in the RL objective and add length normalization to the Bradley-Terry model, yielding a novel loss function named DMPO for multi-turn agent tasks with theoretical explanations. Extensive experiments on three multi-turn agent task datasets confirm the effectiveness and superiority of the DMPO loss. The code is available at https://github.com/swt-user/DMPO.
- Abstract(参考訳): エージェントタスクに対するLLM(Large Language Models)の適用は、言語エージェントの開発において重要である。
直接選好最適化(DPO)は、複合的エラーの緩和によるこの適応のための有望な手法であり、強化学習(RL)の目的を直接最適化する手段を提供する。
しかし、DPOをマルチターンタスクに適用すると、分割関数をキャンセルできないため、課題が生じる。
この障害を克服するには、パーティション関数を現在の状態から独立させ、好ましくない軌道と好ましくない軌道の間の長さ格差に対処することが含まれる。
この光で、我々は政策制約をRL目標における状態-作用占有度尺度制約に置き換え、Bradley-Terryモデルに長さ正規化を加え、理論的な説明を伴うマルチターンエージェントタスクにDMPOという新しい損失関数を与える。
3つのマルチターンエージェントタスクデータセットに対する大規模な実験により、DMPO損失の有効性と優位性が確認された。
コードはhttps://github.com/swt-user/DMPOで公開されている。
関連論文リスト
- Length-Controlled Margin-Based Preference Optimization without Reference Model [11.878496378814045]
好みに基づく強化学習のためのLongth-Controlled Margin-Based Preference Optimization (LMPO)を提案する。
LMPOの重要な革新は、Bradley-Terryフレームワークに組み込まれたLongth-Controlled Marginベースの損失関数である。
実験の結果,LMPOは応答長を効果的に制御し,確率劣化を低減し,既存手法よりも優れていた。
論文 参考訳(メタデータ) (2025-02-20T15:30:27Z) - Division-of-Thoughts: Harnessing Hybrid Language Model Synergy for Efficient On-Device Agents [5.566936703366701]
Division-of-Thoughts(DoT)は、ローカルとクラウドベースの言語モデル間のシナジーを活用する共同推論フレームワークである。
DoTは平均推論時間とAPIコストを66.12%と83.57%削減し、最高のベースライン手法で同等の推論精度を達成している。
論文 参考訳(メタデータ) (2025-02-06T02:40:25Z) - Automatic Double Reinforcement Learning in Semiparametric Markov Decision Processes with Applications to Long-Term Causal Inference [33.14076284663493]
時間不変マルコフ決定過程(MDPs)における$Q$関数の線形汎関数の効率的な推論について検討する。
これらの制限は重なり合う要求を減らし、効率のバウンドを下げ、より正確な見積もりをもたらす。
特殊ケースとして, 等速適応適応型$Q$-iteration(MDPの新しいキャリブレーションアルゴリズム)を用いた適応型デバイアスドプラグイン推定法を提案する。
論文 参考訳(メタデータ) (2025-01-12T20:35:28Z) - StablePrompt: Automatic Prompt Tuning using Reinforcement Learning for Large Language Models [21.556184207901115]
強化学習(Reinforcement Learning, RL)は, 即時チューニングに広く用いられているが, その固有の不安定性と環境依存性は, 実際にの使用を困難にしている。
トレーニング安定性と探索空間のバランスを保ち、RLの不安定性を軽減し、高性能なプロンプトを生成するStablePromptを提案する。
論文 参考訳(メタデータ) (2024-10-10T06:35:51Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - Spurious Feature Eraser: Stabilizing Test-Time Adaptation for Vision-Language Foundation Model [86.9619638550683]
視覚言語基礎モデルは、画像とテキストのペアデータに拡張性があるため、多数の下流タスクで顕著な成功を収めている。
しかし、これらのモデルは、決定ショートカットの結果、きめ細かな画像分類などの下流タスクに適用した場合に重大な制限を呈する」。
論文 参考訳(メタデータ) (2024-03-01T09:01:53Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Prompt-Tuning Decision Transformer with Preference Ranking [83.76329715043205]
本稿では,環境情報取得におけるRLエージェントの誘導手法としてトラジェクトリセグメントを用いたPrompt-Tuning DTアルゴリズムを提案する。
提案手法では,ガウス分布をランダムにサンプリングしてプロンプト軌道の要素を微調整し,選好ランク関数を用いて最適化方向を求める。
我々の研究は、RLにおける迅速な調整手法の進歩に寄与し、特定の選好タスクに対して大規模RLエージェントを最適化するための有望な方向性を提供する。
論文 参考訳(メタデータ) (2023-05-16T17:49:04Z) - Generalizing LTL Instructions via Future Dependent Options [7.8578244861940725]
本稿では,学習効率と最適性を向上した新しいマルチタスクアルゴリズムを提案する。
将来のサブゴールを満たす報酬をより効率的に伝達するために,サブゴール列に条件付きマルチステップ関数を訓練することを提案する。
3つの異なる領域の実験において、提案アルゴリズムにより訓練されたエージェントの一般化能力を評価する。
論文 参考訳(メタデータ) (2022-12-08T21:44:18Z) - Plan Better Amid Conservatism: Offline Multi-Agent Reinforcement
Learning with Actor Rectification [74.10976684469435]
オフライン強化学習(RL)アルゴリズムは、直接マルチエージェント設定に転送することができる。
本稿では,この重要な課題に対処するために,Actor Rectification (OMAR) を用いたオフラインマルチエージェント RL を提案する。
OMARはマルチエージェント連続制御ベンチマークにおける最先端性能と強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2021-11-22T13:27:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。