論文の概要: Agent-as-Tool: A Study on the Hierarchical Decision Making with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2507.01489v1
- Date: Wed, 02 Jul 2025 08:49:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.114593
- Title: Agent-as-Tool: A Study on the Hierarchical Decision Making with Reinforcement Learning
- Title(参考訳): エージェント・アズ・ツール:強化学習による階層的意思決定に関する研究
- Authors: Yanfei Zhang,
- Abstract要約: 大規模言語モデル(LLM)は、人工知能の最も重要な技術進歩の1つとして登場した。
本稿では,ツール呼び出しプロセスと推論プロセスを分離した階層型フレームワークAgent-as-toolを提案する。
我々の研究は180サンプルに対してわずかに強化された微調整を施し、同等の結果を得た。
- 参考スコア(独自算出の注目度): 1.1331292553789585
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have emerged as one of the most significant technological advancements in artificial intelligence in recent years. Their ability to understand, generate, and reason with natural language has transformed how we interact with AI systems. With the development of LLM-based agents and reinforcement-learning-based reasoning models, the study of applying reinforcement learning in agent frameworks has become a new research focus. However, all previous studies face the challenge of deciding the tool calling process and the reasoning process simultaneously, and the chain of reasoning was solely relied on the unprocessed raw result with redundant information and symbols unrelated to the task from the tool, which impose a heavy burden on the model's capability to reason. Therefore, in our research, we proposed a hierarchical framework Agent-as-tool that detach the tool calling process and the reasoning process, which enables the model to focus on the verbally reasoning process while the tool calling process is handled by another agent. Our work had achieved comparable results with only a slight reinforcement fine-tuning on 180 samples, and had achieved exceptionally well performance in Bamboogle with 63.2% of exact match and 75.2% in cover exact match, exceeding Search-R1 by 4.8% in exact match and 3.2% in cover exact match.
- Abstract(参考訳): 大規模言語モデル(LLM)は近年、人工知能の最も重要な技術進歩の1つとして現れている。
自然言語を理解し、生成し、推論する能力は、AIシステムとのインタラクション方法を変えました。
LLMに基づくエージェントと強化学習に基づく推論モデルの開発により、エージェントフレームワークに強化学習を適用する研究が新たな研究の焦点となっている。
しかし、これまでのすべての研究は、ツール呼び出しプロセスと推論プロセスを同時に決定することの難しさに直面しており、推論の連鎖は、未処理の生の結果にのみ依存しており、ツールからタスクに関係のない冗長な情報とシンボルは、モデルが推論する能力に重荷を課している。
そこで本研究では,ツール呼び出しプロセスと推論処理を分離した階層型フレームワークであるAgent-as-toolを提案する。
我々の研究は180サンプルに対してわずかに強化された微調整で同等の結果を得ており、バンボグルでは63.2%の正確なマッチと75.2%のカバーマッチで、サーチ-R1より4.8%の精度で3.2%のカバーマッチを達成している。
関連論文リスト
- Understanding Software Engineering Agents: A Study of Thought-Action-Result Trajectories [18.129031749321058]
大規模言語モデル(LLM)ベースのエージェントは、複雑なソフトウェアエンジニアリングタスクを自動化するためにますます採用されている。
広く採用されているにもかかわらず、これらのエージェントの内部決定プロセスはほとんど解明されていない。
本研究は,3種類のLLM系エージェントの思考-反感-反感の軌跡について,大規模な実証的研究を行った。
論文 参考訳(メタデータ) (2025-06-23T16:34:52Z) - Unifying Language Agent Algorithms with Graph-based Orchestration Engine for Reproducible Agent Research [32.92036657863354]
大規模言語モデル(LLM)を利用した言語エージェントは、複雑なタスクの理解、推論、実行において顕著な能力を示した。
しかし、堅牢なエージェントの開発には、相当なエンジニアリングオーバーヘッド、標準化されたコンポーネントの欠如、公正な比較のための十分な評価フレームワークなど、大きな課題がある。
我々はこれらの課題に対処するフレキシブルで抽象的なフレームワークであるAGORA(Agent Graph-based Orchestration for Reasoning and Assessment)を紹介した。
論文 参考訳(メタデータ) (2025-05-30T08:46:23Z) - Acting Less is Reasoning More! Teaching Model to Act Efficiently [87.28134636548705]
ツール統合推論は、タスクを解決するために外部ツールを呼び出す機能によって、大きな言語モデルを拡張します。
現在のアプローチは、外部ツールの使用効率や必要性を考慮せずに、最終的な正確性のためにのみ最適化されている。
最小限のツールコールで正確な回答をモデルに提示するフレームワークを提案する。
このアプローチでは,ツールコールを最大68.3%削減し,ツールの生産性を最大215.4%向上すると同時に,同等の回答精度を維持している。
論文 参考訳(メタデータ) (2025-04-21T05:40:05Z) - ReTool: Reinforcement Learning for Strategic Tool Use in LLMs [27.07998056454784]
ReToolは、ツール統合学習によるロングフォーム推論を強化する。
モデルは400のトレーニングステップで67%の精度を達成する。
注目すべきは、ReTool-32Bが72.5%の精度で設定できることだ。
論文 参考訳(メタデータ) (2025-04-15T18:10:22Z) - BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。
本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。
本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2025-01-31T02:39:07Z) - Recursive Decomposition of Logical Thoughts: Framework for Superior Reasoning and Knowledge Propagation in Large Language Models [1.4956870931936515]
RDoLTは大規模言語モデルの推論性能を大幅に向上させる新しいフレームワークである。
RDoLTは、(1)複雑な推論タスクを進歩的複雑性のサブタスクに分解すること、(2)最も有望な推論思考を特定するための高度な選択とスコアリング機構を使用すること、(3)人間の学習を模倣する知識伝達モジュールを統合すること、の3つの主要なイノベーションに基づいて構築されている。
提案手法は,GSM8K,SVAMP,MultiArithm,LastLetterConcatenation,Gaokao2023 Mathなど,複数のベンチマークで評価された。
論文 参考訳(メタデータ) (2025-01-03T02:55:44Z) - The Surprising Effectiveness of Test-Time Training for Few-Shot Learning [59.309477460893916]
言語モデル(LM)は、トレーニングディストリビューション内のタスクにおいて印象的なパフォーマンスを示しているが、しばしば構造的に新しいタスクで苦労している。
LMの推論と少数ショット学習能力を改善するメカニズムとして,テストタイムトレーニング(TTT)の有効性を検討する。
本研究は,新しいタスクにおける文脈内学習の限界を強調し,言語モデルの適応性を高めるためのテストタイムトレーニングの可能性を示した。
論文 参考訳(メタデータ) (2024-11-11T18:59:45Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。