Fugu-MT 論文翻訳(概要): AutoTIR: Autonomous Tools Integrated Reasoning via Reinforcement Learning

論文の概要: AutoTIR: Autonomous Tools Integrated Reasoning via Reinforcement Learning

arxiv url: http://arxiv.org/abs/2507.21836v1
Date: Tue, 29 Jul 2025 14:12:28 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-30 17:08:56.457076
Title: AutoTIR: Autonomous Tools Integrated Reasoning via Reinforcement Learning
Title（参考訳）: AutoTIR:強化学習による統合推論
Authors: Yifan Wei, Xiaoyan Yu, Yixuan Weng, Tengfei Pan, Angsheng Li, Li Du,
Abstract要約: 大言語モデル(LLM)は、強力な大共振モデル(LRM)へと進化する Tool-Integrated Reasoning (TIR)は、外部ツールを組み込むことで、その機能をさらに拡張する。ツールを適応的に選択する人間の能力に触発されて,強化学習フレームワークであるAutoTIRを紹介した。
参考スコア（独自算出の注目度）: 17.086082843274003
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs), when enhanced through reasoning-oriented post-training, evolve into powerful Large Reasoning Models (LRMs). Tool-Integrated Reasoning (TIR) further extends their capabilities by incorporating external tools, but existing methods often rely on rigid, predefined tool-use patterns that risk degrading core language competence. Inspired by the human ability to adaptively select tools, we introduce AutoTIR, a reinforcement learning framework that enables LLMs to autonomously decide whether and which tool to invoke during the reasoning process, rather than following static tool-use strategies. AutoTIR leverages a hybrid reward mechanism that jointly optimizes for task-specific answer correctness, structured output adherence, and penalization of incorrect tool usage, thereby encouraging both precise reasoning and efficient tool integration. Extensive evaluations across diverse knowledge-intensive, mathematical, and general language modeling tasks demonstrate that AutoTIR achieves superior overall performance, significantly outperforming baselines and exhibits superior generalization in tool-use behavior. These results highlight the promise of reinforcement learning in building truly generalizable and scalable TIR capabilities in LLMs. The code and data are available at https://github.com/weiyifan1023/AutoTIR.
Abstract（参考訳）: 大規模言語モデル(LLM)は、推論指向のポストトレーニングによって拡張されると、強力な大規模推論モデル(LRM)へと進化する。 Tool-Integrated Reasoning (TIR)は、外部ツールを組み込むことで、その機能をさらに拡張します。ツールを適応的に選択する人間の能力に触発されて,静的ツール利用戦略に従わず,推論プロセス中,どのツールを呼び出すべきかをLLMが自律的に決定できる強化学習フレームワークであるAutoTIRを導入する。 AutoTIRは、タスク固有の回答の正しさ、構造化された出力の順守、不正なツール使用のペナル化を共同で最適化するハイブリッド報酬機構を活用し、正確な推論と効率的なツール統合を奨励する。多様な知識集約型、数学的、および汎用言語モデリングタスクにわたる広範囲な評価は、AutoTIRが全体的なパフォーマンスを向上し、ベースラインを著しく上回り、ツール使用行動のより優れた一般化を示すことを示している。これらの結果は、LLMにおける真の一般化可能でスケーラブルなTIR機能構築における強化学習の可能性を浮き彫りにしている。コードとデータはhttps://github.com/weiyifan1023/AutoTIRで公開されている。

関連論文リスト

Tool-Star: Empowering LLM-Brained Multi-Tool Reasoner via Reinforcement Learning [63.31585771716123]
大言語モデル(LLM)は、大規模強化学習(RL)を通じて顕著な推論能力を示した。ステップワイズ推論中に複数の外部ツールを自律的に呼び出すLLベースのフレームワークであるTool-Starを紹介する。 Tool-Starは6種類のツールを統合し、データ合成とトレーニングの両方に体系的な設計を取り入れている。
論文参考訳（メタデータ） (2025-05-22T09:00:19Z)
Agentic Reasoning and Tool Integration for LLMs via Reinforcement Learning [0.21845291030915975]
ARTISTはエージェント推論、強化学習、大規模言語モデルのツール統合を密に結合する統合フレームワークである。モデルは、マルチターン推論チェーン内でいつ、どのように、どのツールを呼び出すかを、自律的に決定できる。実験の結果、ARTISTは最先端のベースラインを一貫して上回っていることがわかった。
論文参考訳（メタデータ） (2025-04-28T10:42:49Z)
Acting Less is Reasoning More! Teaching Model to Act Efficiently [87.28134636548705]
ツール統合推論は、タスクを解決するために外部ツールを呼び出す機能によって、大きな言語モデルを拡張します。現在のアプローチは、外部ツールの使用効率や必要性を考慮せずに、最終的な正確性のためにのみ最適化されている。最小限のツールコールで正確な回答をモデルに提示するフレームワークを提案する。このアプローチでは,ツールコールを最大68.3%削減し,ツールの生産性を最大215.4%向上すると同時に,同等の回答精度を維持している。
論文参考訳（メタデータ） (2025-04-21T05:40:05Z)
ToolRL: Reward is All Tool Learning Needs [54.16305891389931]
大規模言語モデル(LLM)は、ツールの使用能力を得るために、しばしば監督された微調整(SFT)を行う。近年の強化学習(RL)の進歩は、有望な推論と一般化能力を示している。本稿では、RLパラダイムにおけるツール選択とアプリケーションタスクに対する報酬設計に関する最初の総合的研究について述べる。
論文参考訳（メタデータ） (2025-04-16T21:45:32Z)
FamilyTool: A Multi-hop Personalized Tool Use Benchmark [93.80355496575281]
FamilyToolは、パーソナライズされたマルチホップツールの使用シナリオをシミュレートする、家族ベースのナレッジグラフ(KG)に基盤を置くベンチマークである。実験により、最先端の大規模言語モデル(LLM)における顕著な性能ギャップが明らかになった FamilyToolは、複雑な動的環境において、LLMエージェントの推論、適応性、スケーラビリティを評価し、前進するための重要なリソースとなる。
論文参考訳（メタデータ） (2025-04-09T10:42:36Z)
ToolACE-R: Tool Learning with Adaptive Self-Refinement [84.69651852838794]
ツール学習により、大規模言語モデルは複雑なユーザタスクを解決するための外部ツールを活用することができる。本稿では,ツール実行のための適応型自己調整手法であるToolACE-Rを提案する。提案手法は,様々なサイズのベースモデルと互換性のある提案手法の有効性を実証した。
論文参考訳（メタデータ） (2025-04-02T06:38:56Z)
Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。 MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。 MeCoは微調整不要で、最小限のコストがかかる。
論文参考訳（メタデータ） (2025-02-18T15:45:01Z)
ToolGen: Unified Tool Retrieval and Calling via Generation [34.34787641393914]
ToolGenは、ツール知識を大きな言語モデルのパラメータに直接統合するパラダイムシフトです。 ToolGenは、ツール検索と自律タスク補完の両方において、優れた結果が得られることを示す。 ToolGenは、より汎用的で効率的で自律的なAIシステムを実現する。
論文参考訳（メタデータ） (2024-10-04T13:52:32Z)
LLM With Tools: A Survey [0.0]
本稿では,LCMに外部ツールの使用を教える領域における方法論,問題点,展開について述べる。ユーザ命令を実行可能なプランにマッピングする一連の関数によってガイドされるツール統合のための標準化パラダイムを導入する。調査の結果,ツール起動タイミング,選択精度,堅牢な推論プロセスの必要性など,さまざまな課題が明らかになった。
論文参考訳（メタデータ） (2024-09-24T14:08:11Z)
Tool Learning in the Wild: Empowering Language Models as Automatic Tool Agents [56.822238860147024]
大規模な言語モデルを外部ツールで拡張することは、彼らのユーティリティを拡張するための有望なアプローチとして現れました。以前のメソッドは、ツールドキュメントを手動で解析し、コンテキスト内デモを作成し、ツールをLLMがステップバイステップの推論で使用する構造化フォーマットに変換する。 LLMがツール使用ワークフローを自動化できるフレームワークであるAutoToolsを提案する。
論文参考訳（メタデータ） (2024-05-26T11:40:58Z)
Making Language Models Better Tool Learners with Execution Feedback [36.30542737293863]
ツールは、人間が環境を理解し、形を変えることができる重要なインターフェースとして機能する。既存のツール学習手法は、ツールを無差別に活用するために大きな言語モデルを誘導する。ツール実行からのフィードバックを通じてモデルを継続的に学習することを可能にする2段階のエンドツーエンドフレームワークであるTool leaRning wIth exeCution fEedback (TRICE)を提案する。
論文参考訳（メタデータ） (2023-05-22T14:37:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。