論文の概要: GSM-Agent: Understanding Agentic Reasoning Using Controllable Environments
- arxiv url: http://arxiv.org/abs/2509.21998v2
- Date: Thu, 02 Oct 2025 07:34:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 14:32:17.125422
- Title: GSM-Agent: Understanding Agentic Reasoning Using Controllable Environments
- Title(参考訳): GSM-Agent:制御可能な環境を用いたエージェント推論の理解
- Authors: Hanlin Zhu, Tianyu Guo, Song Mei, Stuart Russell, Nikhil Ghosh, Alberto Bietti, Jiantao Jiao,
- Abstract要約: GSM-Agentは複雑な環境でエージェント推論を評価するための新しいベンチマークである。
我々は,環境文書の埋め込みをノードにクラスタ化することでエージェント推論パターンを分析し,各ツールコールを最も近いノードにマッピングする。
本稿では,LLMのエージェント推論性能を向上させるためのツール拡張テストタイムスケーリング手法を提案する。
- 参考スコア(独自算出の注目度): 56.007498767771075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As LLMs are increasingly deployed as agents, agentic reasoning - the ability to combine tool use, especially search, and reasoning - becomes a critical skill. However, it is hard to disentangle agentic reasoning when evaluated in complex environments and tasks. Current agent benchmarks often mix agentic reasoning with challenging math reasoning, expert-level knowledge, and other advanced capabilities. To fill this gap, we build a novel benchmark, GSM-Agent, where an LLM agent is required to solve grade-school-level reasoning problems, but is only presented with the question in the prompt without the premises that contain the necessary information to solve the task, and needs to proactively collect that information using tools. Although the original tasks are grade-school math problems, we observe that even frontier models like GPT-5 only achieve 67% accuracy. To understand and analyze the agentic reasoning patterns, we propose the concept of agentic reasoning graph: cluster the environment's document embeddings into nodes, and map each tool call to its nearest node to build a reasoning path. Surprisingly, we identify that the ability to revisit a previously visited node, widely taken as a crucial pattern in static reasoning, is often missing for agentic reasoning for many models. Based on the insight, we propose a tool-augmented test-time scaling method to improve LLM's agentic reasoning performance by adding tools to encourage models to revisit. We expect our benchmark and the agentic reasoning framework to aid future studies of understanding and pushing the boundaries of agentic reasoning.
- Abstract(参考訳): LLMがエージェントとしてますますデプロイされるにつれて、ツールの使用、特に検索と推論を組み合わせたエージェント推論が重要なスキルになります。
しかし、複雑な環境やタスクで評価された場合、エージェント推論を混乱させることは困難である。
現在のエージェントベンチマークでは、エージェント推論と、挑戦的な数学推論、エキスパートレベルの知識、その他の高度な能力が混在していることが多い。
このギャップを埋めるために、私たちはGSM-Agentという新しいベンチマークを構築し、そこではLLMエージェントが小学校レベルの推論問題を解く必要があるが、課題を解決するために必要な情報を含む前提がなければ、プロンプトでのみ提示され、ツールを使用してその情報を積極的に収集する必要がある。
元のタスクは小学校の数学の問題であるが、GPT-5のようなフロンティアモデルでさえ67%の精度しか達成していない。
エージェント推論パターンを理解し解析するために,エージェント推論グラフの概念を提案する。環境のドキュメントをノードにクラスタ化し,各ツールコールを最も近いノードにマッピングして推論パスを構築する。
驚いたことに、静的推論において重要なパターンとして広く捉えられている、以前に訪れたノードを再訪する能力は、多くのモデルにおいてエージェント的推論に欠落していることが多い。
そこで本研究では,LLMのエージェント推論性能を向上させるためのツール拡張テストタイムスケーリング手法を提案する。
当社のベンチマークとエージェント推論フレームワークは,エージェント推論の境界に対する理解と推進の今後の研究を支援するものと期待している。
関連論文リスト
- SFR-DeepResearch: Towards Effective Reinforcement Learning for Autonomously Reasoning Single Agents [93.26456498576181]
本稿では,ディープリサーチのためのネイティブ自律単エージェントモデルの開発に焦点をあてる。
我々の最良の変種であるSFR-DR-20Bは、HumanityのLast Examベンチマークで28.7%に達する。
論文 参考訳(メタデータ) (2025-09-08T02:07:09Z) - GDS Agent: A Graph Algorithmic Reasoning Agent [0.0]
本稿では,GDS (Graph Data Science) エージェントについて紹介する。
GDSエージェントは、アルゴリズム結果の事前処理(検索)と後処理とともに、グラフアルゴリズムの包括的なセットをツールとして導入する。
その結果、GDSエージェントは幅広いグラフタスクを解くことができることがわかった。
論文 参考訳(メタデータ) (2025-08-28T10:35:44Z) - Distilling Tool Knowledge into Language Models via Back-Translated Traces [12.670632885715305]
本稿では,ツール知識を言語モデル(LLM)に純粋に抽出するための新しいパラダイムを提案する。
Translator Agentは、個々のツールコールの説明を生成し、Rephrase Agentはそれらを合体させて、流動的でグローバルに一貫性のある物語にする。
これらの合成トレース上で小さなオープンソースモデルを微調整することで、ツール知識と構造化推論パターンの両方を内部化できることを示す。
論文 参考訳(メタデータ) (2025-06-23T22:10:38Z) - Agent-X: Evaluating Deep Multimodal Reasoning in Vision-Centric Agentic Tasks [94.19506319646376]
本稿では,実世界のマルチモーダル環境での視覚中心エージェント評価のためのベンチマークであるAgent-Xを紹介する。
Agent-Xは、828のエージェントタスクと、イメージ、マルチイメージ比較、ビデオ、命令テキストを含む、真の視覚的コンテキストを備えている。
その結果、GPT、Gemini、Qwenファミリーを含む最高のパフォーマンスモデルでさえ、多段階視覚タスクの解決に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2025-05-30T17:59:53Z) - ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks [54.52092001110694]
ThinkGeoは、構造化ツールの使用とマルチステップ計画を通じて、リモートセンシングタスクにおけるツール拡張エージェントを評価するために設計されたベンチマークである。
ThinkGeoは、ツール-インタラクションのパラダイムにインスパイアされたもので、さまざまな現実世界のアプリケーションにまたがる人間のクエリを含んでいる。
分析の結果、ツールの精度とモデル間の計画整合性に顕著な相違が明らかになった。
論文 参考訳(メタデータ) (2025-05-29T17:59:38Z) - Distilling LLM Agent into Small Models with Retrieval and Code Tools [57.61747522001781]
Agent Distillationは、推論能力とタスク解決の振る舞いを大きな言語モデルから小さな言語モデルに移行するためのフレームワークである。
その結果,SLMは0.5B,1.5B,3Bのパラメータで,次世代の1.5B,3B,7Bモデルと競合する性能が得られることがわかった。
論文 参考訳(メタデータ) (2025-05-23T08:20:15Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - Agentic Reasoning: A Streamlined Framework for Enhancing LLM Reasoning with Agentic Tools [19.70178343422698]
本稿では,外部ツール利用エージェントを統合することで,大規模言語モデル(LLM)推論を強化するフレームワークであるAgentic Reasoningを紹介する。
私たちのフレームワークにおける重要な革新はMind-Mapエージェントです。
DeepSeek-R1にデプロイすると、パブリックモデル間で新しいSOTA(State-of-the-art)を実現する。
論文 参考訳(メタデータ) (2025-02-07T04:08:46Z) - GANterfactual-RL: Understanding Reinforcement Learning Agents'
Strategies through Visual Counterfactual Explanations [0.7874708385247353]
本稿では,RLエージェントの反実的説明を生成する手法を提案する。
本手法は完全にモデルに依存しないので,いくつかの計算量において,従来の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-02-24T15:29:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。