論文の概要: ARIA: Training Language Agents with Intention-Driven Reward Aggregation
- arxiv url: http://arxiv.org/abs/2506.00539v2
- Date: Wed, 04 Jun 2025 13:39:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 13:54:39.505523
- Title: ARIA: Training Language Agents with Intention-Driven Reward Aggregation
- Title(参考訳): ARIA: インテンション駆動逆アグリゲーションによる言語エージェントのトレーニング
- Authors: Ruihan Yang, Yikai Zhang, Aili Chen, Xintao Wang, Siyu Yuan, Jiangjie Chen, Deqing Yang, Yanghua Xiao,
- Abstract要約: 本稿では,効率よく効果的な言語エージェント訓練を実現するために,意図空間内のリワードを集約する手法であるARIAを提案する。
ARIAは、高次元のジョイントトークン分布空間から低次元の意図空間に自然言語アクションを投影することを目的としており、そこでは意味的に類似したアクションがクラスタ化され、共有報酬が割り当てられる。
大規模な実験では、ARIAは政策勾配のばらつきを著しく低減するだけでなく、4つの下流タスクで平均9.95%のパフォーマンス向上をもたらし、オフラインとオンラインのRLベースラインを一貫して上回っている。
- 参考スコア(独自算出の注目度): 58.094583980405446
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have enabled agents to perform complex reasoning and decision-making through free-form language interactions. However, in open-ended language action environments (e.g., negotiation or question-asking games), the action space can be formulated as a joint distribution over tokens, resulting in an exponentially large action space. Sampling actions in such a space can lead to extreme reward sparsity, which brings large reward variance, hindering effective reinforcement learning (RL). To address this, we propose ARIA, a method that Aggregates Rewards in Intention space to enable efficient and effective language Agents training. ARIA aims to project natural language actions from the high-dimensional joint token distribution space into a low-dimensional intention space, where semantically similar actions are clustered and assigned shared rewards. This intention-aware reward aggregation reduces reward variance by densifying reward signals, fostering better policy optimization. Extensive experiments demonstrate that ARIA not only significantly reduces policy gradient variance, but also delivers substantial performance gains of an average of 9.95% across four downstream tasks, consistently outperforming offline and online RL baselines.
- Abstract(参考訳): 大規模言語モデル(LLM)により、エージェントは自由形式の言語相互作用を通じて複雑な推論と意思決定を行うことができる。
しかし、オープンエンドな言語行動環境(例えば、交渉や疑問を投げかけるゲーム)では、アクション空間はトークン上の共同分布として定式化することができ、結果として指数関数的に大きなアクション空間となる。
このような空間でアクションをサンプリングすると、極端に報酬の分散が生じ、効果的な強化学習(RL)を妨げる。
そこで本研究では,効率よく効果的な言語エージェント訓練を実現するために,意図空間内でRewardsを集約する手法であるARIAを提案する。
ARIAは、高次元のジョイントトークン分布空間から低次元の意図空間に自然言語アクションを投影することを目的としており、そこでは意味的に類似したアクションがクラスタ化され、共有報酬が割り当てられる。
この意図認識型報酬集約は報酬信号の密度化による報酬分散を低減し、より良い政策最適化を促進する。
大規模な実験では、ARIAは政策勾配のばらつきを著しく低減するだけでなく、4つの下流タスクで平均9.95%のパフォーマンス向上をもたらし、オフラインとオンラインのRLベースラインを一貫して上回っている。
関連論文リスト
- Reinforcing Language Agents via Policy Optimization with Action Decomposition [36.984163245259936]
本稿では,アクションレベルからトークンレベルへの言語エージェントの最適化を提案する。
次に、アクション内トークンとアクション間トークンの両方に対するクレジット代入を統合するために、アクション分解(BAD)を用いてベルマンバックアップを導出する。
PPOアルゴリズムにおけるBADの実装, 行動分解による政策最適化(POAD)の導入
論文 参考訳(メタデータ) (2024-05-23T14:01:44Z) - Noise Distribution Decomposition based Multi-Agent Distributional Reinforcement Learning [15.82785057592436]
マルチエージェント強化学習(MARL)は、インテリジェントエージェント間の干渉によるノイズの影響を受けやすい。
本稿では,グローバル共有雑音報酬を近似することで,分解に基づく新しいマルチエージェント分布RL法を提案する。
また,提案手法の有効性を,雑音を考慮した広範囲なシミュレーション実験により検証した。
論文 参考訳(メタデータ) (2023-12-12T07:24:15Z) - Semantically Aligned Task Decomposition in Multi-Agent Reinforcement
Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。
SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。
SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文 参考訳(メタデータ) (2023-05-18T10:37:54Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z) - Unsupervised Cross-Lingual Speech Emotion Recognition Using
DomainAdversarial Neural Network [48.1535353007371]
SER(Cross-domain Speech Emotion Recog-nition)は、ソースとターゲットドメイン間の分散シフトによる課題である。
本論文では,この分散シフトを緩和するためのDANN(Domain Adversarial Neural Network)ベースのアプローチを提案する。
論文 参考訳(メタデータ) (2020-12-21T08:21:11Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。