論文の概要: TSPO: Breaking the Double Homogenization Dilemma in Multi-turn Search Policy Optimization
- arxiv url: http://arxiv.org/abs/2601.22776v1
- Date: Fri, 30 Jan 2026 09:58:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.367614
- Title: TSPO: Breaking the Double Homogenization Dilemma in Multi-turn Search Policy Optimization
- Title(参考訳): TSPO:マルチターン探索最適化における二重均質化ジレンマの破滅
- Authors: Shichao Ma, Zhiyuan Ma, Ming Yang, Xiaofan Li, Xing Wu, Jintao Du, Yu Cheng, Weiqiang Wang, Qiliang Liu, Zhengyang Zhou, Yang Wang,
- Abstract要約: マルチターンツール統合推論により、大規模言語モデル(LLM)は反復情報検索によって複雑なタスクを解くことができる。
探索強化推論のための現在の強化学習(RL)フレームワークは、少ない結果レベルの報酬に依存している。
この問題に対処するために,ターンレベル段階対応政策最適化(TSPO)を提案する。
- 参考スコア(独自算出の注目度): 32.17940023097263
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-turn tool-integrated reasoning enables Large Language Models (LLMs) to solve complex tasks through iterative information retrieval. However, current reinforcement learning (RL) frameworks for search-augmented reasoning predominantly rely on sparse outcome-level rewards, leading to a "Double Homogenization Dilemma." This manifests as (1) Process homogenization, where the thinking, reasoning, and tooling involved in generation are ignored. (2) Intra-group homogenization, coarse-grained outcome rewards often lead to inefficiencies in intra-group advantage estimation with methods like Group Relative Policy Optimization (GRPO) during sampling. To address this, we propose Turn-level Stage-aware Policy Optimization (TSPO). TSPO introduces the First-Occurrence Latent Reward (FOLR) mechanism, allocating partial rewards to the step where the ground-truth answer first appears, thereby preserving process-level signals and increasing reward variance within groups without requiring external reward models or any annotations. Extensive experiments demonstrate that TSPO significantly outperforms state-of-the-art baselines, achieving average performance gains of 24% and 13.6% on Qwen2.5-3B and 7B models, respectively.
- Abstract(参考訳): マルチターンツール統合推論により、大規模言語モデル(LLM)は反復情報検索によって複雑なタスクを解くことができる。
しかし、探索強化推論のための現在の強化学習(RL)フレームワークは、主にスパースレベルの報酬に依存しており、「二重均質化ジレンマ」に繋がる。
これは(1)プロセスの均質化であり、そこでは思考、推論、そして生成に関わるツールが無視される。
2) グループ内均質化, 粗大な結果報酬は, サンプリング中のグループ相対政策最適化(GRPO)などの手法を用いて, グループ内利益評価の非効率性をもたらすことが多かった。
そこで我々は,TSPO(Turn-level Stage-Aware Policy Optimization)を提案する。
TSPO は First-Occurrence Latent Reward (FOLR) 機構を導入し、基礎的な答えが最初に現れるステップに部分的な報酬を割り当て、それによってプロセスレベルの信号を保持し、外部の報酬モデルやアノテーションを必要とせずにグループ内の報酬分散を増大させる。
大規模な実験により、TSPOは最先端のベースラインを著しく上回り、Qwen2.5-3Bモデルと7Bモデルでそれぞれ平均24%と13.6%のパフォーマンス向上を達成した。
関連論文リスト
- ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking [84.07076200941474]
ArenaRLは、ポイントワイドスカラースコアからグループ内相対ランクにシフトする強化学習パラダイムである。
我々は,グループ内対角アリーナを構築し,安定した有利な信号を得るためのトーナメントベースのランキングスキームを考案する。
実験により、ArenaRLは標準のRLベースラインを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2026-01-10T08:43:07Z) - IRPO: Scaling the Bradley-Terry Model via Reinforcement Learning [11.499402258204375]
Intergroup Relative Preference Optimization (IRPO)は、確立されたBradley-TerryモデルをGRPOに組み込んだ新しいRLフレームワークである。
各応答に対してポイントワイズスコアを生成することにより、IRPOはRLトレーニング中に任意に多くの候補を効率的に評価することができる。
実験の結果,IRPOはポイントワイドGRM間のSOTA(State-of-the-art)性能を達成できた。
論文 参考訳(メタデータ) (2026-01-02T12:57:06Z) - DaGRPO: Rectifying Gradient Conflict in Reasoning via Distinctiveness-Aware Group Relative Policy Optimization [20.66452395111739]
識別性を考慮したグループ相対ポリシー最適化(DaGRPO)を提案する。
DaGRPOは,(1)微粒なスコアリングを利用して,低差別性でサンプルペアを動的にマスキングするシーケンスレベルのグラディエント・リクティフィケーション,(2)高品質なアンカーを導入し,課題に対処するためのトレーニング信号の復元を行うオフ・ポリシー・データ・アジュメンテーションという2つのコアメカニズムを取り入れている。
詳細な分析により、DaGRPOは勾配の爆発を効果的に軽減し、長鎖推論能力の出現を加速することを確認した。
論文 参考訳(メタデータ) (2025-12-06T07:51:36Z) - Empowering Multi-Turn Tool-Integrated Reasoning with Group Turn Policy Optimization [20.004150645050537]
Group Turn Policy Optimization (GTPO) は、多ターンツール統合推論タスクにおける大規模言語モデル(LLM)のトレーニング用に設計された、新しい強化学習アルゴリズムである。
GTPOは、各ターンに対してきめ細かいフィードバックを提供するターンレベルの報酬割り当て、リターンベースの利点推定、自己監督型報酬形成という3つの重要なイノベーションを導入している。
総合評価の結果、GTPOは様々な推論ベンチマークでGRPOを平均3.0%上回っていることがわかった。
論文 参考訳(メタデータ) (2025-11-18T19:01:16Z) - Repurposing Synthetic Data for Fine-grained Search Agent Supervision [81.95597592711688]
LLMベースの検索エージェントは、エンティティ中心の合成データに基づいてますます訓練されている。
一般的なトレーニングメソッドは、このリッチなエンティティ情報を破棄し、代わりにスパースで結果に基づく報酬に依存します。
E-GRPO(Entity-Aware Group Relative Policy Optimization)は、高密度なエンティティ認識報酬関数を定式化する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-10-28T17:50:40Z) - G$^2$RPO: Granular GRPO for Precise Reward in Flow Models [74.21206048155669]
本稿では,サンプリング方向の高精度かつ包括的な報酬評価を実現する新しいグラニュラー-GRPO(G$2$RPO)フレームワークを提案する。
複数の拡散スケールで計算された利点を集約するマルチグラニュラリティ・アドバンテージ・インテグレーション・モジュールを導入する。
G$2$RPOは既存のフローベースGRPOベースラインを著しく上回る。
論文 参考訳(メタデータ) (2025-10-02T12:57:12Z) - Solving the Granularity Mismatch: Hierarchical Preference Learning for Long-Horizon LLM Agents [56.625878022978945]
自律的なエージェントとしての大規模言語モデル(LLM)は、複雑で長期にわたる問題の解決にますます取り組まれている。
直接優先度最適化(DPO)は、正確なクレジット代入には大きすぎる信号を提供するが、ステップレベルのDPOは、しばしば、複数のステップの振る舞いの値をキャプチャするには、筋が通らない。
階層的選好学習(HPL)は、複数の相乗的粒度における選好信号を活用することで、LLMエージェントを最適化する階層的フレームワークである。
論文 参考訳(メタデータ) (2025-09-26T08:43:39Z) - MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources [113.33902847941941]
VAS (Variance-Aware Sampling) は、Variance Promotion Score (VPS) によって導かれるデータ選択戦略である。
我々は、1.6MのCoT冷間開始データと15kのRLQAペアを含む大規模かつ慎重にキュレートされたリソースをリリースする。
数学的推論ベンチマークによる実験では、キュレートされたデータと提案されたVASの有効性が示されている。
論文 参考訳(メタデータ) (2025-09-25T14:58:29Z) - Group Causal Policy Optimization for Post-Training Large Language Models [10.791474908144703]
グループ相対政策最適化(GRPO)は、補完性や矛盾といった意味的な相互作用を見越して、候補応答を独立したものとして扱う。
本稿では2つの重要なコンポーネントを通じて因果構造を最適化するグループ因果ポリシー最適化(GCPO)を提案する。
GCPOは、複数の推論ベンチマークでGRPOを含む既存のメソッドを一貫して上回っている。
論文 参考訳(メタデータ) (2025-08-07T14:17:28Z) - EDGE-GRPO: Entropy-Driven GRPO with Guided Error Correction for Advantage Diversity [7.818698554631196]
グループ相対政策最適化 (GRPO) アルゴリズムはスパース報酬規則に依存しており、有利な崩壊問題を引き起こす。
我々は,textbfEntropy-textbfDriven Advantage と textbfGuided textbfError Correction を採用したEDGE-GRPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-07-29T14:23:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。