論文の概要: Beyond Reactivity: Measuring Proactive Problem Solving in LLM Agents
- arxiv url: http://arxiv.org/abs/2510.19771v1
- Date: Wed, 22 Oct 2025 17:00:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:16.158919
- Title: Beyond Reactivity: Measuring Proactive Problem Solving in LLM Agents
- Title(参考訳): 反応性を超える: LLM エージェントにおける能動的問題解決の測定
- Authors: Gil Pasternak, Dheeraj Rajagopal, Julia White, Dhruv Atreja, Matthew Thomas, George Hurn-Maloney, Ash Lewis,
- Abstract要約: PROBEは3つのコア機能のパイプラインとして活性を分解する。
GPT-5とClaude Opus-4.1の両方で、40%の最高のエンドツーエンドパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 3.0745879700441385
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-based agents are increasingly moving towards proactivity: rather than awaiting instruction, they exercise agency to anticipate user needs and solve them autonomously. However, evaluating proactivity is challenging; current benchmarks are constrained to localized context, limiting their ability to test reasoning across sources and longer time horizons. To address this gap, we present PROBE (Proactive Resolution Of BottlEnecks). PROBE decomposes proactivity as a pipeline of three core capabilities: (1) searching for unspecified issues, (2) identifying specific bottlenecks, and (3) executing appropriate resolutions. We apply PROBE to evaluate leading LLMs and popular agentic frameworks, showing that even state-of-the-art models struggle to solve this benchmark. Computing our consistent measurements across frontier LLMs and agents, we find that the best end-to-end performance of 40% is achieved by both GPT-5 and Claude Opus-4.1. Additionally, we demonstrate the relative capabilities of each model and analyze mutual failure modes. Our results highlight the current limitations of autonomous action in agentic systems, and expose promising future research directions.
- Abstract(参考訳): LLMベースのエージェントは、ますますプロアクティビティへと移行しつつある。命令を待つのではなく、ユーザーのニーズを予測し、自律的に解決するエージェントを訓練する。
現行のベンチマークは局所的なコンテキストに制約されており、ソース間の推論のテスト能力やより長い時間的地平線を制限している。
このギャップに対処するため,Proactive Resolution of BottlEnecks(Proactive Resolution of BottlEnecks)を提案する。
PROBEは、(1)特定されていない問題を探すこと、(2)特定のボトルネックを特定すること、(3)適切な解決を実行すること、の3つのコア機能からなるパイプラインとしてプロアクティビティを分解する。
PROBEを主要なLLMおよび一般的なエージェントフレームワークの評価に適用し、最先端のモデルでさえこのベンチマークを解くのに苦労していることを示す。
GPT-5とClaude Opus-4.1の両方で40%の最高のエンドツーエンド性能が得られる。
さらに、各モデルの相対的能力を示し、相互故障モードを解析する。
本研究は,エージェントシステムにおける自律行動の現在の限界を強調し,将来的な研究方向性を明らかにするものである。
関連論文リスト
- When Seeing Is not Enough: Revealing the Limits of Active Reasoning in MLLMs [29.198301196459834]
MLLM(Multimodal large language model)は、幅広いベンチマークで強力な機能を示している。
既存の評価のほとんどは受動的推論に重点を置いており、モデルが完全な情報の下でステップバイステップの推論を行う。
MLLMは不完全な情報の下で行方不明の証拠を積極的に取得できるのか?
我々はMLLMに、タスク固有の事前情報のない候補プールから目標画像を選択することにより、欠落した証拠を積極的に取得し、不完全な情報の下で決定を反復的に洗練するよう要求する。
20個の優れたMLLMを評価したところ、アクティブな推論ラグがパッシブな設定ではるかに遅れていることが分かり、かなりの余地があることが示唆された。
論文 参考訳(メタデータ) (2025-10-17T08:17:27Z) - AInstein: Assessing the Feasibility of AI-Generated Approaches to Research Problems [28.38783951577184]
AInsteinは、AI研究問題に対する有効なソリューションを、大規模言語モデルが生成できるかどうかをテストするためのフレームワークである。
受け入れ層により層状化された1,214 ICLR紙上でのAInsteinの評価を行った。
論文 参考訳(メタデータ) (2025-10-06T22:50:41Z) - Learning to Refine: Self-Refinement of Parallel Reasoning in LLMs [102.48588475875749]
本稿では,新しい並列テスト時間スケーリングフレームワークであるGenerative Self-Refinement (GSR)を紹介する。
GSRは一連の候補応答を並列に生成し、その後自己精製を行い、新しい優れた解を合成する。
提案手法は,5つの数学ベンチマークにおいて,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-08-27T06:51:48Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - Why Do Multi-Agent LLM Systems Fail? [91.39266556855513]
MAST(Multi-Agent System Failure taxonomy, MAST)は,MASの故障を理解するために考案された分類法である。
我々は、200以上のタスクにまたがる7つの人気のあるMASフレームワークを分析し、6つの専門家のアノテータを含む。
14のユニークな障害モードを特定し、(i)仕様問題、(ii)エージェント間ミスアライメント、(iii)タスク検証の3つに分類した。
論文 参考訳(メタデータ) (2025-03-17T19:04:38Z) - OR-LLM-Agent: Automating Modeling and Solving of Operations Research Optimization Problems with Reasoning LLM [15.260794368585692]
自動オペレーションリサーチ問題解決のためのLLMを推論するAIエージェントフレームワークであるOR-LLM-Agentを提案する。
GPT-o3, Gemini 2.5 Pro, DeepSeek-R1, ORLMなどの高度な手法よりも, OR-LLM-Agentの精度を7%以上向上させることを示す。
論文 参考訳(メタデータ) (2025-03-13T03:40:50Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。