論文の概要: Solving the Granularity Mismatch: Hierarchical Preference Learning for Long-Horizon LLM Agents
- arxiv url: http://arxiv.org/abs/2510.03253v1
- Date: Fri, 26 Sep 2025 08:43:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-12 15:03:05.805215
- Title: Solving the Granularity Mismatch: Hierarchical Preference Learning for Long-Horizon LLM Agents
- Title(参考訳): 粒度ミスマッチの解法:長軸LLMエージェントの階層的選好学習
- Authors: Heyang Gao, Zexu Sun, Erxue Min, Hengyi Cai, Shuaiqiang Wang, Dawei Yin, Xu Chen,
- Abstract要約: 自律的なエージェントとしての大規模言語モデル(LLM)は、複雑で長期にわたる問題の解決にますます取り組まれている。
直接優先度最適化(DPO)は、正確なクレジット代入には大きすぎる信号を提供するが、ステップレベルのDPOは、しばしば、複数のステップの振る舞いの値をキャプチャするには、筋が通らない。
階層的選好学習(HPL)は、複数の相乗的粒度における選好信号を活用することで、LLMエージェントを最適化する階層的フレームワークである。
- 参考スコア(独自算出の注目度): 56.625878022978945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) as autonomous agents are increasingly tasked with solving complex, long-horizon problems. Aligning these agents via preference-based offline methods like Direct Preference Optimization (DPO) is a promising direction, yet it faces a critical granularity mismatch. Trajectory-level DPO provides a signal that is too coarse for precise credit assignment, while step-level DPO is often too myopic to capture the value of multi-step behaviors. To resolve this challenge, we introduce Hierarchical Preference Learning (HPL), a hierarchical framework that optimizes LLM agents by leveraging preference signals at multiple, synergistic granularities. While HPL incorporates trajectory- and step-level DPO for global and local policy stability, its core innovation lies in group-level preference optimization guided by a dual-layer curriculum. Our approach first decomposes expert trajectories into semantically coherent action groups and then generates contrasting suboptimal groups to enable preference learning at a fine-grained, sub-task level. Then, instead of treating all preference pairs equally, HPL introduces a curriculum scheduler that organizes the learning process from simple to complex. This curriculum is structured along two axes: the group length, representing sub-task complexity, and the sample difficulty, defined by the reward gap between preferred and dispreferred action groups. Experiments on three challenging agent benchmarks show that HPL outperforms existing state-of-the-art methods. Our analyses demonstrate that the hierarchical DPO loss effectively integrates preference signals across multiple granularities, while the dual-layer curriculum is crucial for enabling the agent to solve a wide range of tasks, from simple behaviors to complex multi-step sequences.
- Abstract(参考訳): 自律的なエージェントとしての大規模言語モデル(LLM)は、複雑で長期にわたる問題の解決にますます取り組まれている。
DPO(Direct Preference Optimization)のような嗜好ベースのオフラインメソッドを通じてこれらのエージェントを調整することは、有望な方向だが、重大な粒度のミスマッチに直面している。
トラジェクトリレベルのDPOは、正確なクレジット割り当てには粗い信号を提供するが、ステップレベルのDPOは、しばしば、複数のステップの振る舞いの価値を捉えるには、筋が通らない。
この課題を解決するために,複数の相乗的粒度の選好信号を活用することでLLMエージェントを最適化する階層的フレームワークである階層的選好学習(HPL)を導入する。
HPLは、グローバルおよびローカルな政策安定のために軌道とステップレベルのDPOを組み込んでいるが、その中心となるイノベーションは、二重層カリキュラムによって導かれるグループレベルの選好最適化にある。
提案手法はまず,専門的軌跡を意味的コヒーレントな行動群に分解し,コントラスト付き準最適群を生成して,微粒なサブタスクレベルでの嗜好学習を実現する。
そして、すべての選好ペアを平等に扱う代わりに、HPLはカリキュラムスケジューラを導入し、学習プロセスをシンプルから複雑に整理する。
このカリキュラムは、サブタスクの複雑さを表すグループ長と、好ましくないアクション群と好ましくないアクション群の間の報酬ギャップによって定義されるサンプル困難という2つの軸に沿って構成されている。
3つの挑戦的エージェントベンチマークの実験は、HPLが既存の最先端メソッドより優れていることを示している。
解析の結果、階層的なDPO損失は、複数の粒度にわたる選好信号を効果的に統合することを示し、一方、二重層カリキュラムは、エージェントが単純な動作から複雑なマルチステップシーケンスまで、幅広いタスクを解決できるようにするために重要である。
関連論文リスト
- Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - Heterogeneous Group-Based Reinforcement Learning for LLM-based Multi-Agent Systems [25.882461853973897]
本稿では、相対報酬の利点を推定して政策更新を導くマルチエージェント不均一グループ政策最適化(MHGPO)を提案する。
MHGPOは、批判的ネットワークの必要性を排除し、安定性を向上し、計算オーバーヘッドを減らす。
また,効率性と有効性を両立させる3つのグループロールアウトサンプリング戦略も導入する。
論文 参考訳(メタデータ) (2025-06-03T10:17:19Z) - MisoDICE: Multi-Agent Imitation from Unlabeled Mixed-Quality Demonstrations [5.4482836906033585]
実演が混在する多エージェント環境下でのオフライン模倣学習(IL)について検討した。
提案手法は,軌道ラベリングとマルチエージェント模倣学習の2段階からなる。
我々はこれらのラベルを利用してロバストなポリシーを学習する新しいマルチエージェントILアルゴリズムであるMisoDICEを紹介する。
論文 参考訳(メタデータ) (2025-05-24T08:43:42Z) - Group-in-Group Policy Optimization for LLM Agent Training [17.243181792126563]
Group-in-Group Policy Optimization (GiGPO) は、LLMエージェントのきめ細かいクレジット割り当てを実現する新しいRLアルゴリズムである。
我々は、Qwen2.5-1.5B-InstructとQwen2.5-7B-Instructを用いて、ALFWorldとWebShopという2つの挑戦的エージェントベンチマーク上でGiGPOを評価した。
論文 参考訳(メタデータ) (2025-05-16T08:26:59Z) - Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - SDPO: Segment-Level Direct Preference Optimization for Social Agents [56.970902914217156]
大規模言語モデル(LLM)を利用した社会エージェントは、人間の社会的振る舞いをシミュレートできるが、複雑な社会対話を扱うには不十分である。
マルチターンエージェントの動作を最適化するために,対話内のキーセグメントを動的に選択するセグメントレベル直接参照最適化(SDPO)を提案する。
論文 参考訳(メタデータ) (2025-01-03T14:09:46Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。