論文の概要: Agentic Reasoning and Tool Integration for LLMs via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.01441v1
- Date: Mon, 28 Apr 2025 10:42:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.108639
- Title: Agentic Reasoning and Tool Integration for LLMs via Reinforcement Learning
- Title(参考訳): 強化学習によるLDMのエージェント推論とツール統合
- Authors: Joykirat Singh, Raghav Magazine, Yash Pandya, Akshay Nambi,
- Abstract要約: ARTISTはエージェント推論、強化学習、大規模言語モデルのツール統合を密に結合する統合フレームワークである。
モデルは、マルチターン推論チェーン内でいつ、どのように、どのツールを呼び出すかを、自律的に決定できる。
実験の結果、ARTISTは最先端のベースラインを一貫して上回っていることがわかった。
- 参考スコア(独自算出の注目度): 0.21845291030915975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have achieved remarkable progress in complex reasoning tasks, yet they remain fundamentally limited by their reliance on static internal knowledge and text-only reasoning. Real-world problem solving often demands dynamic, multi-step reasoning, adaptive decision making, and the ability to interact with external tools and environments. In this work, we introduce ARTIST (Agentic Reasoning and Tool Integration in Self-improving Transformers), a unified framework that tightly couples agentic reasoning, reinforcement learning, and tool integration for LLMs. ARTIST enables models to autonomously decide when, how, and which tools to invoke within multi-turn reasoning chains, leveraging outcome-based RL to learn robust strategies for tool use and environment interaction without requiring step-level supervision. Extensive experiments on mathematical reasoning and multi-turn function calling benchmarks show that ARTIST consistently outperforms state-of-the-art baselines, with up to 22% absolute improvement over base models and strong gains on the most challenging tasks. Detailed studies and metric analyses reveal that agentic RL training leads to deeper reasoning, more effective tool use, and higher-quality solutions. Our results establish agentic RL with tool integration as a powerful new frontier for robust, interpretable, and generalizable problem-solving in LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な進歩を遂げているが、静的な内部知識とテキストのみの推論に依存しているため、基本的に制限されている。
現実の問題解決には、動的で多段階の推論、適応的な意思決定、そして外部のツールや環境と対話する能力を必要とすることが多い。
本研究では、エージェント推論、強化学習、LSMのためのツール統合を密結合した統合フレームワークARTIST(Agentic Reasoning and Tool Integration in Self-improving Transformers)を紹介する。
ARTISTは、マルチターン推論チェーン内でいつ、どのように、どのツールを呼び出すかを自律的に決定し、結果ベースのRLを活用して、ステップレベルの監視を必要とせずに、ツールの使用と環境相互作用のための堅牢な戦略を学ぶことができる。
数学的推論とマルチターン関数呼び出しベンチマークの広範な実験により、ARTISTは最先端のベースラインを一貫して上回り、ベースモデルよりも最大で22%向上し、最も困難なタスクでは強力なゲインが得られた。
詳細な研究と計量分析により、エージェントRLトレーニングがより深い推論、より効果的なツールの使用、高品質なソリューションをもたらすことが明らかになった。
LLMにおける堅牢で解釈可能で一般化可能な問題解決のための強力な新たなフロンティアとして,ツール統合を備えたエージェントRLを確立した。
関連論文リスト
- FamilyTool: A Multi-hop Personalized Tool Use Benchmark [94.1158032740113]
ファミリーベースナレッジグラフ(KG)に基づく新しいベンチマークであるFamilyToolを紹介する。
FamilyToolは1から3つのリレーショナルホップにまたがるクエリを伴う大規模言語モデルに挑戦する。
実験により、最先端のLCMにおいて大きな性能差が示された。
論文 参考訳(メタデータ) (2025-04-09T10:42:36Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [54.787341008881036]
Reinforced Meta-thinking Agents(ReMA)は,MARL(Multi-Agent Reinforcement Learning)を利用したメタ思考行動の抽出手法である。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
実験の結果、ReMAは複雑な推論タスクにおいて単一エージェントRLベースラインよりも優れていた。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - Alignment for Efficient Tool Calling of Large Language Models [34.748897353548756]
大きな言語モデル(LLM)は、外部ツールを統合することができ、知識境界を広げてタスクパフォーマンスを向上させる。
しかしながら、ツールに依存すると、パフォーマンス、スピード、コストのトレードオフが発生することが多い。
本稿では,LSMを知識境界に整合させ,ツールの実行に関するよりインテリジェントな判断を行うという課題に対処する。
論文 参考訳(メタデータ) (2025-03-09T17:55:49Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは表現空間の高レベル認知信号をキャプチャし、ツールを呼び出すタイミングを指示する。
実験の結果,MeCoはLSMの内部認知信号を正確に検出し,ツール使用による意思決定を大幅に改善することがわかった。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - Sibyl: Simple yet Effective Agent Framework for Complex Real-world Reasoning [12.80689911863731]
Sibylは、最小限のツールセットを効率的に活用することによって、複雑な推論タスクに取り組むように設計された強力なフレームワークである。
Sibylは、最終回答を自己定義し、包括的でバランスの取れたアプローチを確保するために、マルチエージェントの議論に基づく陪審を実施。
GAIAベンチマークテストセットの実験結果から,Sibylエージェントは平均スコア34.55%の最先端性能を実現していることがわかった。
論文 参考訳(メタデータ) (2024-07-15T13:45:40Z) - Efficient Tool Use with Chain-of-Abstraction Reasoning [63.08202389132155]
大規模言語モデル(LLM)は、現実世界の知識に対する推論の基礎となる必要がある。
マルチステップ推論問題におけるツールの実行には,微調整LDMエージェントの課題が残されている。
マルチステップ推論におけるツールの活用方法として, LLM の新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-30T21:53:30Z) - TPTU: Large Language Model-based AI Agents for Task Planning and Tool
Usage [28.554981886052953]
大規模言語モデル(LLM)は、様々な現実世界のアプリケーションのための強力なツールとして登場した。
LLMの本質的な生成能力は、その長所にもかかわらず、複雑なタスクを扱うには不十分である。
本稿では,LLMベースのAIエージェントに適した構造化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-07T09:22:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。