論文の概要: MatchTIR: Fine-Grained Supervision for Tool-Integrated Reasoning via Bipartite Matching
- arxiv url: http://arxiv.org/abs/2601.10712v1
- Date: Thu, 15 Jan 2026 18:59:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.29088
- Title: MatchTIR: Fine-Grained Supervision for Tool-Integrated Reasoning via Bipartite Matching
- Title(参考訳): MatchTIR:双方向マッチングによるツール統合推論のための細粒化スーパービジョン
- Authors: Changle Qu, Sunhao Dai, Hengyi Cai, Jun Xu, Shuaiqiang Wang, Dawei Yin,
- Abstract要約: Tool-Integrated Reasoningは、外部ツールのインタラクションと推論ステップをインターリーブすることで、大規模な言語モデルで複雑なタスクに対処することを可能にする。
既存の強化学習法は、結果や軌道レベルの報酬に依存し、軌道内のすべてのステップに一様の利点を割り当てる。
両部間マッチングに基づくターンレベルの報酬割当と二重レベルの優位性推定によるきめ細かい監視を実現するフレームワークであるMatchTIRを提案する。
- 参考スコア(独自算出の注目度): 60.886768806064936
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Tool-Integrated Reasoning (TIR) empowers large language models (LLMs) to tackle complex tasks by interleaving reasoning steps with external tool interactions. However, existing reinforcement learning methods typically rely on outcome- or trajectory-level rewards, assigning uniform advantages to all steps within a trajectory. This coarse-grained credit assignment fails to distinguish effective tool calls from redundant or erroneous ones, particularly in long-horizon multi-turn scenarios. To address this, we propose MatchTIR, a framework that introduces fine-grained supervision via bipartite matching-based turn-level reward assignment and dual-level advantage estimation. Specifically, we formulate credit assignment as a bipartite matching problem between predicted and ground-truth traces, utilizing two assignment strategies to derive dense turn-level rewards. Furthermore, to balance local step precision with global task success, we introduce a dual-level advantage estimation scheme that integrates turn-level and trajectory-level signals, assigning distinct advantage values to individual interaction turns. Extensive experiments on three benchmarks demonstrate the superiority of MatchTIR. Notably, our 4B model surpasses the majority of 8B competitors, particularly in long-horizon and multi-turn tasks. Our codes are available at https://github.com/quchangle1/MatchTIR.
- Abstract(参考訳): Tool-Integrated Reasoning (TIR)は、大規模な言語モデル(LLM)に対して、推論ステップを外部ツールのインタラクションとインターリーブすることで、複雑なタスクに対処する権限を与える。
しかし、既存の強化学習手法は一般に結果や軌道レベルの報酬に頼り、軌道内の全てのステップに均一な利点を割り当てる。
この粗粒度のクレジット代入は、特に長期のマルチターンシナリオにおいて、効果的なツールコールと冗長あるいは誤のコールを区別することができない。
そこで本研究では,両部間マッチングに基づくターンレベルの報酬割当と二重レベルの優位性推定によるきめ細かな監視を実現するフレームワークであるMatchTIRを提案する。
具体的には,2つの代入戦略を用いて,高密度なターンレベルの報酬を導出する。
さらに、局所的なステップ精度とグローバルなタスク成功のバランスをとるために、ターンレベルとトラジェクトリレベルの信号を統合し、個別のインタラクションターンに異なる利得値を割り当てる二段階の利得推定手法を導入する。
3つのベンチマークでの大規模な実験は、MatchTIRの優位性を示している。
特にロングホライゾンやマルチターンタスクでは、当社の4Bモデルは8Bの競合製品の大半を上回っています。
私たちのコードはhttps://github.com/quchangle1/MatchTIRで利用可能です。
関連論文リスト
- ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking [84.07076200941474]
ArenaRLは、ポイントワイドスカラースコアからグループ内相対ランクにシフトする強化学習パラダイムである。
我々は,グループ内対角アリーナを構築し,安定した有利な信号を得るためのトーナメントベースのランキングスキームを考案する。
実験により、ArenaRLは標準のRLベースラインを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2026-01-10T08:43:07Z) - Token-Level LLM Collaboration via FusionRoute [60.72307345997823]
FusionRouteはトークンレベルのマルチLLMコラボレーションフレームワークである。
各デコーディングステップで最も適した専門家を選択し、選択した専門家の次のTokenディストリビューションを洗練または修正する補完ロジットをコントリビュートする。
シーケンスレベルのコラボレーションとトークンレベルのコラボレーション、モデルマージ、ダイレクト微調整の両方に優れています。
論文 参考訳(メタデータ) (2026-01-08T16:53:16Z) - MEJO: MLLM-Engaged Surgical Triplet Recognition via Inter- and Intra-Task Joint Optimization [52.149337961205624]
手術用三重項認識のためのタスク間最適化とタスク内最適化を両立する枠組みを提案する。
タスク間最適化のために、タスク共有およびタスク固有コンポーネントに表現を分解する共有特徴分散学習スキーム(S$2$D)を導入する。
タスク内最適化競合に対して,正負の曖昧さを識別・再バランスするコーディネート・グラディエント・ラーニング(CGL)戦略を開発する。
論文 参考訳(メタデータ) (2025-09-16T09:48:52Z) - CoDiEmb: A Collaborative yet Distinct Framework for Unified Representation Learning in Information Retrieval and Semantic Textual Similarity [20.349897901019574]
統合されたテキスト埋め込みをトレーニングするための統合フレームワークであるCoDiEmbを紹介する。
CoDiEmbは、効果的な共同最適化のための3つの重要なイノベーションを統合している。
我々の結果と分析は、このフレームワークがクロスタスクトレードオフを緩和していることを示している。
論文 参考訳(メタデータ) (2025-08-15T12:46:35Z) - A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。
合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。
実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。
高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文 参考訳(メタデータ) (2024-12-18T15:38:39Z) - A Two-Stage Learning-to-Defer Approach for Multi-Task Learning [3.4289478404209826]
本稿では,マルチタスク学習のための新しい2段階L2Dフレームワークを提案する。
提案手法は2段階のサロゲート損失ファミリーを利用し,Bayes-consistentと$(mathcalG, MathcalR)$-consistentの両方を証明した。
論文 参考訳(メタデータ) (2024-10-21T07:44:57Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。