論文の概要: Can Tool-Integrated Reinforcement Learning Generalize Across Diverse Domains?
- arxiv url: http://arxiv.org/abs/2510.11184v1
- Date: Mon, 13 Oct 2025 09:19:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.291984
- Title: Can Tool-Integrated Reinforcement Learning Generalize Across Diverse Domains?
- Title(参考訳): ツール強化強化学習は多分野にまたがって一般化できるのか?
- Authors: Zhengyu Chen, Jinluan Yang, Teng Xiao, Ruochen Zhou, Luan Zhang, Xiangyu Xi, Xiaowei Shi, Wei Wang, Jinggang Wang,
- Abstract要約: 多様な領域にまたがるツール強化強化学習の一般化はいまだ検討されていない。
本稿では,ドメインに依存しない学習とスキルマイグレーションを促進するためのツール一般化強化学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 18.11059968099671
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language models (LLMs) have demonstrated remarkable capabilities in reasoning and tool utilization. However, the generalization of tool-augmented reinforcement learning (RL) across diverse domains remains underexplored. In this work, we investigate the cross-domain generalization of an LLM agent equipped with a code interpreter tool, which is exclusively trained on mathematical problem-solving tasks. Despite the restricted training domain, we evaluate the agent's performance across several distinct reasoning domains. The results reveal that RL-based tool usage learned from mathematical tasks can be effectively transferred to complex tasks in other domains, enabling great task performance and high token efficiency. To facilitate this cross-domain transfer, we propose a Tool Generalization Reinforcement Learning (TGRL) framework designed to promote domain-agnostic learning and skill migration, encompassing: (i) a standardized tool interface that abstracts domain-specific nuances through consistent formatting and explicit termination, fostering transferable invocation patterns; (ii) a dual-component reward system that decomposes rewards to incentivize generalizable behaviors like tool efficiency and reasoning abstraction, ensuring alignment and robustness across domain shifts; and (iii) an XML-based prompt template that separates thinking, tool calls, and responses to encourage modular, domain-invariant planning and coherent multi-turn interactions. Extensive experiments across diverse benchmarks validate our approach, achieving state-of-the-art performance and highlighting the cross-domain potential of Tool RL for LLM reasoning.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、推論とツール利用において顕著な能力を示している。
しかし、多分野にわたるツール強化強化学習(RL)の一般化はいまだ検討されていない。
本研究では,数理的問題解決タスクを専門とするコードインタプリタツールを備えたLLMエージェントのクロスドメイン一般化について検討する。
制限された訓練領域にもかかわらず、エージェントのパフォーマンスは複数の異なる推論領域で評価する。
その結果、数学的なタスクから学習したRLベースのツールの使用は、他の領域の複雑なタスクに効果的に移行することができ、優れたタスク性能と高いトークン効率を実現することができることがわかった。
このクロスドメイン移行を容易にするために、ドメインに依存しない学習とスキルマイグレーションを促進するためのツール一般化強化学習(TGRL)フレームワークを提案する。
(i)一貫したフォーマットと明示的な終了を通じてドメイン固有のニュアンスを抽象化し、転送可能な呼び出しパターンを育む標準化されたツールインターフェース。
二 報酬を分解して、ツール効率、推論抽象化、ドメインシフト間の整合性及び堅牢性の確保等、一般化可能な行動のインセンティブを付与する二成分報酬システム
(iii)XMLベースのプロンプトテンプレートで、思考、ツールコール、レスポンスを分離し、モジュール化されたドメイン不変の計画と一貫性のあるマルチターンインタラクションを促進する。
LLM推論のためのツールRLのクロスドメインポテンシャルを強調しながら、様々なベンチマークによる大規模な実験により、我々のアプローチが検証された。
関連論文リスト
- MR-UIE: Multi-Perspective Reasoning with Reinforcement Learning for Universal Information Extraction [21.487874020516454]
大規模言語モデル(LLM)は、様々な研究領域にまたがる堅牢な能力を示す。
既存のアプローチは、文脈内学習と命令チューニングを通じてLLMの性能を向上させる。
本稿では,情報抽出タスクに対する多視点推論と強化学習(RL)の統合を提案する。
論文 参考訳(メタデータ) (2025-09-11T01:08:58Z) - VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use [78.29315418819074]
VerlToolは、体系的な設計原則を通じて制限に対処する統一的でモジュール化されたフレームワークです。
我々のフレームワークはARLTをマルチターントラジェクトリとして定式化し、マルチモード観測トークン(テキスト/画像/ビデオ)を単一ターンRLVRパラダイムを超えて拡張する。
モジュール化されたプラグインアーキテクチャは、軽量Python定義のみを必要とする迅速なツール統合を可能にする。
論文 参考訳(メタデータ) (2025-09-01T01:45:18Z) - Agentic Reasoning and Tool Integration for LLMs via Reinforcement Learning [0.21845291030915975]
ARTISTはエージェント推論、強化学習、大規模言語モデルのツール統合を密に結合する統合フレームワークである。
モデルは、マルチターン推論チェーン内でいつ、どのように、どのツールを呼び出すかを、自律的に決定できる。
実験の結果、ARTISTは最先端のベースラインを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2025-04-28T10:42:49Z) - Guiding Multi-agent Multi-task Reinforcement Learning by a Hierarchical Framework with Logical Reward Shaping [16.5526277899717]
本研究の目的は,論理報酬形成を伴う多エージェント協調アルゴリズムを設計することである。
Minecraftのような環境下で様々な種類のタスクで実験が行われてきた。
論文 参考訳(メタデータ) (2024-11-02T09:03:23Z) - R-Eval: A Unified Toolkit for Evaluating Domain Knowledge of Retrieval Augmented Large Language Models [51.468732121824125]
大規模言語モデルは一般的なNLPタスクにおいて顕著な成功を収めてきたが、ドメイン固有の問題には不足する可能性がある。
既存の評価ツールは、ドメイン知識の深さを掘り下げることなく、いくつかのベースラインを提供し、様々なドメインで評価するのみである。
本稿では、R-Evalツールキット(R-Evalツールキット)を導入し、異なるRAGの評価を合理化することによるALLMの評価の課題に対処する。
論文 参考訳(メタデータ) (2024-06-17T15:59:49Z) - Learning to Use Tools via Cooperative and Interactive Agents [58.77710337157665]
ツール学習は、外部ツールを使用してユーティリティを拡張するエージェントとして、大きな言語モデル(LLM)を促進する。
ツール選択,ツール実行,アクションキャリブレーションの3つの特別なエージェントを個別にコーディネートする,協調型対話型エージェントフレームワークであるConAgentsを提案する。
3つのデータセットに対する実験により、LLMは、ConAgentsを装備した場合、大幅に改善されたベースラインよりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-03-05T15:08:16Z) - Exploiting Style Transfer-based Task Augmentation for Cross-Domain
Few-Shot Learning [4.678020383205135]
ドメイン間の数ショット学習では、ソースドメインでトレーニングされたモデルは、ターゲットドメインへの一般化に苦労する。
本稿では,TAML(Task Augmented Meta-Learning)を提案する。
提案したTAMLは、トレーニングタスクのスタイルの多様性を高め、ドメインの一般化能力を向上したモデルのトレーニングに寄与する。
論文 参考訳(メタデータ) (2023-01-19T07:32:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。