論文の概要: Reinforcing Language Agents via Policy Optimization with Action Decomposition
- arxiv url: http://arxiv.org/abs/2405.15821v1
- Date: Thu, 23 May 2024 14:01:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 02:39:33.907548
- Title: Reinforcing Language Agents via Policy Optimization with Action Decomposition
- Title(参考訳): 行動分解を考慮した政策最適化による言語エージェントの強化
- Authors: Muning Wen, Ziyu Wan, Weinan Zhang, Jun Wang, Ying Wen,
- Abstract要約: 本稿では,アクションレベルからトークンレベルへの言語エージェントの最適化を提案する。
次に、アクション内トークンとアクション間トークンの両方に対するクレジット代入を統合するために、アクション分解(BAD)を用いてベルマンバックアップを導出する。
PPOアルゴリズムにおけるBADの実装, 行動分解による政策最適化(POAD)の導入
- 参考スコア(独自算出の注目度): 36.984163245259936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models as intelligent agents push the boundaries of sequential decision-making agents but struggle with limited knowledge of environmental dynamics and exponentially huge action space. Recent efforts like GLAM and TWOSOME manually constrain the action space to a restricted subset and employ reinforcement learning to align agents' knowledge with specific environments. However, they overlook fine-grained credit assignments for intra-action tokens, which is essential for efficient language agent optimization, and rely on human's prior knowledge to restrict action space. This paper proposes decomposing language agent optimization from the action level to the token level, offering finer supervision for each intra-action token and manageable optimization complexity in environments with unrestricted action spaces. Beginning with the simplification of flattening all actions, we theoretically explore the discrepancies between action-level optimization and this naive token-level optimization. We then derive the Bellman backup with Action Decomposition (BAD) to integrate credit assignments for both intra-action and inter-action tokens, effectively eliminating the discrepancies. Implementing BAD within the PPO algorithm, we introduce Policy Optimization with Action Decomposition (POAD). POAD benefits from a finer-grained credit assignment process and lower optimization complexity, leading to enhanced learning efficiency and generalization abilities in aligning language agents with interactive environments. We validate POAD across diverse testbeds, with results affirming the advantages of our approach and the correctness of our theoretical analysis.
- Abstract(参考訳): 知的エージェントとしての言語モデルは、シーケンシャルな意思決定エージェントの境界を押し上げるが、環境力学や指数関数的に巨大な行動空間に関する限られた知識に苦慮する。
GLAMやTWOSOMEといった最近の取り組みは、手動で活動空間を制限されたサブセットに制限し、エージェントの知識を特定の環境に合わせるために強化学習を採用する。
しかし、効率的な言語エージェント最適化に不可欠であるアクション内トークンのきめ細かいクレジット代入を見落とし、アクション空間を制限するために人間の以前の知識に依存している。
本稿では,アクションレベルからトークンレベルへの言語エージェント最適化の分解について提案する。
すべてのアクションをフラット化することの単純化から始まり、アクションレベルの最適化とこの単純でトークンレベルの最適化との相違点を理論的に探求する。
次に、アクション分割(BAD)を用いてベルマンバックアップを導出し、アクション内トークンとアクション間トークンの両方にクレジット代入を統合することで、その相違を効果的に排除する。
PPO アルゴリズムに BAD を実装し,行動分解を伴う政策最適化(POAD)を導入する。
POADは、よりきめ細かいクレジット割り当てプロセスとより低い最適化複雑性の恩恵を受け、言語エージェントと対話的な環境との整合における学習効率と一般化能力の向上につながります。
我々は様々なテストベッドにまたがってPOADを検証し、その結果、我々のアプローチの利点と理論解析の正確性が確認された。
関連論文リスト
- Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Efficient Reinforcement Learning via Decoupling Exploration and Utilization [6.305976803910899]
強化学習(Reinforcement Learning, RL)は、ゲーム、ロボティクス、自動運転車など、さまざまな分野やアプリケーションで大きな成功を収めている。
本研究の目的は,探索と利用を分離して効率よく学習するエージェントを訓練することであり,エージェントが最適解の難解を逃れられるようにすることである。
提案したOPARL(Optimistic and Pessimistic Actor Reinforcement Learning)アルゴリズムに実装した。
論文 参考訳(メタデータ) (2023-12-26T09:03:23Z) - APS: Active Pretraining with Successor Features [96.24533716878055]
非エントロピーと後継指標であるHansenFastを再解釈して組み合わせることで、難解な相互情報を効率的に最適化できることを示す。
提案手法は,非エントロピーを用いて環境を探索し,探索したデータを効率的に活用して動作を学習する。
論文 参考訳(メタデータ) (2021-08-31T16:30:35Z) - Attention Actor-Critic algorithm for Multi-Agent Constrained
Co-operative Reinforcement Learning [3.296127938396392]
協調的な環境下での強化学習(RL)エージェントの最適動作の計算問題について考察する。
我々はこのアルゴリズムを制約付きマルチエージェントRL設定に拡張する。
論文 参考訳(メタデータ) (2021-01-07T03:21:15Z) - One-shot Policy Elicitation via Semantic Reward Manipulation [2.668480521943575]
本稿では,新たなシーケンシャル最適化アルゴリズムであるSingle-shot Policy Explanation for Augmenting Rewards (SPEAR)について述べる。
本研究では,SPEARが実行時および対応可能な問題サイズにおいて,最先端技術よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2021-01-06T04:11:22Z) - Effective Unsupervised Domain Adaptation with Adversarially Trained
Language Models [54.569004548170824]
注意的なマスキング戦略は、マスキングされた言語モデルの知識ギャップを橋渡しできることを示す。
本稿では,これらのトークンを逆さまにマスキングすることで効果的なトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-10-05T01:49:47Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。