論文の概要: When Do Tools and Planning Help LLMs Think? A Cost- and Latency-Aware Benchmark
- arxiv url: http://arxiv.org/abs/2601.02663v1
- Date: Tue, 06 Jan 2026 02:24:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.776222
- Title: When Do Tools and Planning Help LLMs Think? A Cost- and Latency-Aware Benchmark
- Title(参考訳): ツールとプランニングはLLMにいつ役立つか? - コストとレイテンシを意識したベンチマーク
- Authors: Subha Ghoshal, Ali Al-Bustami,
- Abstract要約: 大規模言語モデルは推論時間計画と推論を改善するための外部ツールにますます依存している。
グラフ構造化知識(Event-QA)に対するイベント中心質問応答と,Reddit ChangeMyView(CMV)における説得応答生成の2つの現実的な設定で,この挙動をベンチマークする。
LangChainとLangGraphを使って、タスク固有のツールを備えたプラン-実行-再計画エージェントとワンショットベースラインを比較します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern large language models (LLMs) increasingly rely on inference-time planning and external tools to improve reasoning. We benchmark this behavior on two real-world settings: event-centric question answering over graph-structured knowledge (Event-QA) and persuasive response generation in Reddit ChangeMyView (CMV). Using LangChain and LangGraph, we compare a one-shot baseline against a plan--execute--replan agent equipped with task-specific tools (DBpedia SPARQL/lookup/schema exploration, Wikipedia-focused retrieval, and topical web search). We evaluate on 60 examples each from Event-QA and CMV (3 splits of 20), and report both mean end-to-end latency and per-example token cost estimates. We evaluate GPT-4o and GPT-4o-mini under identical workflows and report accuracy and end-to-end latency. On Event-QA, the best tool-augmented configuration improves accuracy (e.g., 47.5\% $\rightarrow$ 67.5\% for GPT-4o) while increasing latency by orders of magnitude ($\sim$8s $\rightarrow$ $\sim$317s per example). On CMV, one-shot prompting is strongest (e.g., GPT-4o-mini achieves 75\% at $\sim$6s), and planning+search increases latency substantially without consistent gains. However, complex multi-tool orchestration exposes failure modes where the smaller model degrades. Overall, the findings highlight the need for task-specific, cost-aware choices of both model size and agent/tooling complexity.
- Abstract(参考訳): 現代の大規模言語モデル(LLM)は推論時間計画と推論を改善するための外部ツールにますます依存している。
イベント中心の質問応答(Event-QA)とReddit ChangeMyView(CMV)の説得的応答生成(Persuasive response generation)である。
LangChainとLangGraphを使用して、タスク固有のツール(DBpedia SPARQL/lookup/schema Explor、Wikipedia中心の検索、トピックWeb検索)を備えたプラン-エグゼクティブ-リプランエージェントと比較する。
Event-QAとCMV(20の分割)からそれぞれ60の例を評価し、平均エンドツーエンドのレイテンシとトークン単位のコスト見積を報告した。
我々は、GPT-4oとGPT-4o-miniを同一のワークフローで評価し、精度とエンドツーエンドのレイテンシを報告する。
Event-QAでは、最高のツール拡張構成により、精度が向上する(例: 47.5\% $\rightarrow$ 67.5\% for GPT-4o)と同時に、桁違いのレイテンシ(例: $\sim$8s $\rightarrow$ $\sim$317s)。
CMVでは、ワンショットプロンプトが最強(例えば、GPT-4o-miniは$\sim$6sで75\%を達成する)で、プランニング+検索は、一貫したゲインなしで遅延を大幅に増加させる。
しかし、複雑なマルチツールオーケストレーションは、より小さなモデルが劣化する障害モードを公開する。
全体としては、モデルサイズとエージェント/ツーリングの複雑さの両方に関して、タスク固有の、コストを意識した選択の必要性が浮き彫りになっている。
関連論文リスト
- TeaRAG: A Token-Efficient Agentic Retrieval-Augmented Generation Framework [62.66056331998838]
TeaRAGは、検索内容と推論ステップの両方を圧縮できるトークン効率のエージェントRAGフレームワークである。
報奨関数は,過剰な推論ステップをペナルティ化しながら,知識マッチング機構によって知識満足度を評価する。
論文 参考訳(メタデータ) (2025-11-07T16:08:34Z) - TPS-Bench: Evaluating AI Agents' Tool Planning \& Scheduling Abilities in Compounding Tasks [23.96822236741708]
大規模言語モデル(LLM)エージェントは、研究やコーディングといった分野にまたがる強力な問題解決能力を示している。
本稿では, TPS-Bench を用いて, ツールプランニングとスケジューリングを要求される問題に対する LLM エージェントの能力のベンチマークを行う。
論文 参考訳(メタデータ) (2025-11-03T12:45:39Z) - One Model to Critique Them All: Rewarding Agentic Tool-Use via Efficient Reasoning [54.580646706013965]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。
一般的なツール使用シナリオに適した軽量な生成型RMのファミリーであるToolRMを紹介する。
これらのモデルを構築するために,ルールベースのスコアリングと多次元サンプリングを用いたペアワイズ選好データを構築するパイプラインを提案する。
論文 参考訳(メタデータ) (2025-10-30T06:08:27Z) - GAP: Graph-Based Agent Planning with Parallel Tool Use and Reinforcement Learning [20.75113227786218]
グラフベースのエージェント計画(GAP)は、グラフベースの計画を通じてタスク間の依存関係を明示的にモデル化する新しいフレームワークである。
我々のアプローチは、複雑なタスクを依存性を意識したサブタスクグラフに分解する基礎モデルを訓練する。
この依存性を意識したオーケストレーションは、実行効率とタスクの正確性の両方で大幅に改善される。
論文 参考訳(メタデータ) (2025-10-29T09:35:55Z) - Maestro: Joint Graph & Config Optimization for Reliable AI Agents [53.71882250666667]
Maestro は LLM エージェントのための全体論的に依存しないフレームワークであり、エージェントの品質を最大化するためにグラフや構成を共同で検索する。
IFBenchとHotpotQAのベンチマークでは、MIPROv2、GEPA、GEPA+といった主要なプロンプトを平均12%--4.9%、それぞれ4.86%上回っている。
論文 参考訳(メタデータ) (2025-09-04T20:00:37Z) - Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling [83.78874399606379]
テスト時間スケーリングを備えたマルチエージェント協調フレームワークであるMACTを提案する。
4つの異なる小規模エージェントから構成され、明確に定義された役割と効果的なコラボレーションがある。
一般および数学的タスクの能力を犠牲にすることなく、より小さなパラメータスケールで優れた性能を示す。
論文 参考訳(メタデータ) (2025-08-05T12:52:09Z) - $\texttt{SPECS}$: Faster Test-Time Scaling through Speculative Drafts [55.231201692232894]
$textttSPECS$は、投機的デコードにインスパイアされた遅延対応のテスト時間スケーリングメソッドである。
我々の結果は、$textttSPECS$matchはビームサーチの精度を上回り、最大$sim$19.1%のレイテンシを削減していることを示している。
論文 参考訳(メタデータ) (2025-06-15T05:50:05Z) - First Finish Search: Efficient Test-Time Scaling in Large Language Models [20.62274005080048]
First Finish Search(FFS)は、トレーニング不要の並列デコード戦略で、独立して$n$のサンプルをローンチし、任意のサンプルが完成したらすぐに返却する。
FFSは、AIMEデータセットで82.23%の精度を達成し、DeepSeek-R1のスタンドアロンの精度よりも15%$改善され、OpenAIのo4-miniのパフォーマンスとほぼ一致する。
論文 参考訳(メタデータ) (2025-05-23T17:57:43Z) - Improving Large Language Model Planning with Action Sequence Similarity [50.52049888490524]
本研究では,インコンテキスト学習(ICL)によるモデル計画能力の向上について検討する。
GRASE-DC は2段階のパイプラインで,まず高効率のAS例を再サンプリングし,選択した例をキュレートする。
実験の結果,GRASE-DCは様々な計画タスクにおいて大幅な性能向上を実現していることがわかった。
論文 参考訳(メタデータ) (2025-05-02T05:16:17Z) - Algorithm Design for Continual Learning in IoT Networks [16.35495567193046]
連続学習(CL)は、異なるタスクから連続的に生成されたストリーミングデータに対する新しいオンライン学習技術である。
実用的なIoTネットワークでは、データをサンプリングしてさまざまなタスクを学習する自動運転車は、タスクパターンの順序をルーティングし変更することができる。
論文 参考訳(メタデータ) (2024-12-22T02:36:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。