論文の概要: SimpleTIR: End-to-End Reinforcement Learning for Multi-Turn Tool-Integrated Reasoning
- arxiv url: http://arxiv.org/abs/2509.02479v2
- Date: Wed, 03 Sep 2025 17:06:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:04.103777
- Title: SimpleTIR: End-to-End Reinforcement Learning for Multi-Turn Tool-Integrated Reasoning
- Title(参考訳): SimpleTIR:マルチターンツール統合推論のためのエンドツーエンド強化学習
- Authors: Zhenghai Xue, Longtao Zheng, Qian Liu, Yingru Li, Xiaosen Zheng, Zejun Ma, Bo An,
- Abstract要約: マルチターンTIRトレーニングを安定化するプラグイン・アンド・プレイアルゴリズムであるSimpleTIRを導入する。
特に AIME24 のスコアをテキストのみのベースラインから 50.5 に高めている。
- 参考スコア(独自算出の注目度): 45.09671059003642
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) can significantly improve their reasoning capabilities by interacting with external tools, a paradigm known as Tool-Integrated Reasoning (TIR). However, extending TIR to multi-turn scenarios using Reinforcement Learning (RL) is often hindered by training instability and performance collapse. We identify that such instability is primarily caused by a distributional drift from external tool feedback, leading to the generation of low-probability tokens. This issue compounds over successive turns, causing catastrophic gradient norm explosions that derail the training process. To address this challenge, we introduce SimpleTIR , a plug-and-play algorithm that stabilizes multi-turn TIR training. Its core strategy is to identify and filter out trajectories containing void turns, i.e., turns that yield neither a code block nor a final answer. By removing these problematic trajectories from the policy update, SimpleTIR effectively blocks the harmful, high-magnitude gradients, thus stabilizing the learning dynamics. Extensive experiments show that SimpleTIR achieves state-of-the-art performance on challenging math reasoning benchmarks, notably elevating the AIME24 score from a text-only baseline of 22.1 to 50.5 when starting from the Qwen2.5-7B base model. Furthermore, by avoiding the constraints of supervised fine-tuning, SimpleTIR encourages the model to discover diverse and sophisticated reasoning patterns, such as self-correction and cross-validation.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ツール統合推論(TIR)と呼ばれるパラダイムである外部ツールと相互作用することで、推論能力を大幅に改善することができる。
しかし、強化学習(RL)を用いてTIRをマルチターンシナリオに拡張することは、トレーニングの不安定性とパフォーマンスの崩壊によってしばしば妨げられる。
このような不安定性は主に外部ツールフィードバックからの分布的ドリフトによって引き起こされ、低確率トークンが生成される。
この問題は連続する回転を超越し、破滅的な勾配ノルムの爆発を引き起こし、訓練過程を損なう。
この課題に対処するために,マルチターンTIRトレーニングを安定化するプラグアンドプレイアルゴリズムSimpleTIRを導入する。
その中核となる戦略は、ヴォイド・ターンを含む軌跡を識別してフィルタリングすることであり、すなわち、コードブロックも最終的な答えも得られない。
これらの問題のある軌跡をポリシー更新から取り除くことで、SimpleTIRは有害で高次勾配を効果的にブロックし、学習ダイナミクスを安定化する。
特にQwen2.5-7Bベースモデルから始めると、テキストのみのベースラインから22.1から50.5までのAIME24スコアが上昇する。
さらに、教師付き微調整の制約を避けることで、SimpleTIRはモデルに自己補正やクロスバリデーションのような多様で洗練された推論パターンを見つけるように促す。
関連論文リスト
- Pentest-R1: Towards Autonomous Penetration Testing Reasoning Optimized via Two-Stage Reinforcement Learning [6.534445405422796]
Pentest-R1は、侵入テストタスクの推論機能を最適化するために設計されたフレームワークである。
環境フィードバックから直接学習し、堅牢なエラー自己補正と適応戦略を開発する。
AutoPenBenchでは、Pentest-R1は24.2%の成功率に達し、ほとんどの最先端モデルを上回っている。
論文 参考訳(メタデータ) (2025-08-10T15:14:05Z) - Reinforcement Fine-Tuning Naturally Mitigates Forgetting in Continual Post-Training [23.99424961055015]
本稿では,教師付きファインチューニング(SFT)と強化ファインチューニング(RFT)の2つのコアポストトレーニングパラダイムの比較分析を行った。
本実験は,7つの多様なマルチモーダルタスクからなるベンチマークで実施した。
論文 参考訳(メタデータ) (2025-07-07T18:17:06Z) - Reasoning Model Unlearning: Forgetting Traces, Not Just Answers, While Preserving Reasoning Skills [32.96074934023323]
大きな推論モデル(LRM)は、テスト時間計算を通じて強力なチェーン・オブ・シント(CoT)生成を可能にした。
従来の未学習アルゴリズムは、もともと非推論モデル用に設計されていたが、LRMには不適当であることを示す。
本稿では,意味のある推論トレースを効果的に抑制する新しい手法であるReasoning-aware Representation Misdirection for Unlearning(R2MU$)を提案する。
論文 参考訳(メタデータ) (2025-06-15T20:54:23Z) - START: Self-taught Reasoner with Tools [51.38785489790888]
ツール統合長チェーン・オブ・シークレット(CoT)推論LSMであるSTART(Self-Taught Reasoner with Tools)を紹介する。
STARTは複雑な計算、自己チェック、多様な方法の探索、そして自己老化を行うことができる。
基礎となるQwQ-32Bを著しく上回り、最先端のオープンウェイトモデルR1-Distill-Qwen-32Bに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2025-03-06T17:11:51Z) - Towards Deviation-Robust Agent Navigation via Perturbation-Aware
Contrastive Learning [125.61772424068903]
視覚言語ナビゲーション(VLN)は、エージェントに与えられた言語命令に従って実際の3D環境をナビゲートするように要求する。
本稿では,既存のVLNエージェントの一般化能力を高めるために,PROPER(Progressive Perturbation-aware Contrastive Learning)と呼ばれるモデルに依存しない学習パラダイムを提案する。
論文 参考訳(メタデータ) (2024-03-09T02:34:13Z) - Single-Trajectory Distributionally Robust Reinforcement Learning [21.955807398493334]
本研究では,分散ロバストRL (DRRL) を提案する。
既存のDRRLアルゴリズムはモデルベースか、1つのサンプル軌道から学習できないかのいずれかである。
単一軌道を用いた分散ロバストQ-ラーニング(DRQ)と呼ばれる,完全モデルフリーなDRRLアルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-01-27T14:08:09Z) - Unbiased Risk Estimators Can Mislead: A Case Study of Learning with
Complementary Labels [92.98756432746482]
我々は,補完ラベルを用いた学習という,弱教師付き問題を研究する。
勾配推定の品質はリスク最小化においてより重要であることを示す。
本稿では,ゼロバイアスと分散の低減を両立させる新しい補助的相補的損失(SCL)フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-05T04:19:37Z) - Cascaded Regression Tracking: Towards Online Hard Distractor
Discrimination [202.2562153608092]
本稿では,2段階の逐次回帰トラッカーを提案する。
第1段階では, 容易に同定可能な負の候補を抽出する。
第2段階では、残留するあいまいな硬質試料をダブルチェックするために、離散サンプリングに基づくリッジ回帰を設計する。
論文 参考訳(メタデータ) (2020-06-18T07:48:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。