論文の概要: Agentic Frameworks for Reasoning Tasks: An Empirical Study
- arxiv url: http://arxiv.org/abs/2604.16646v1
- Date: Fri, 17 Apr 2026 19:02:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 14:04:47.797484
- Title: Agentic Frameworks for Reasoning Tasks: An Empirical Study
- Title(参考訳): タスクの推論のためのエージェント・フレームワーク:実証的研究
- Authors: Zeeshan Rasheed, Abdul Malik Sami, Muhammad Waseem, Kai-Kristian Kemell, Mika Saari, Pekka Abrahamsson,
- Abstract要約: BBH, GSM8K, ARCの3つの推論ベンチマークにおいて, 広く使用されている22のエージェントフレームワークを実証的に評価した。
我々はそれらを統一的な設定で評価し、推論精度、実行時間、計算コスト、ベンチマーク間の整合性を測定した。
貧弱な結果は、主に制限を推論するのではなく、オーケストレーションの問題によって引き起こされた。
- 参考スコア(独自算出の注目度): 2.210207223867301
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in agentic frameworks have enabled AI agents to perform complex reasoning and decision-making. However, evidence comparing their reasoning performance, efficiency, and practical suitability remains limited. To address this gap, we empirically evaluate 22 widely used agentic frameworks across three reasoning benchmarks: BBH, GSM8K, and ARC. The frameworks were selected from 1,200 GitHub repositories collected between January 2023 and July 2025 and organized into a taxonomy based on architectural design. We evaluated them under a unified setting, measuring reasoning accuracy, execution time, computational cost, and cross-benchmark consistency. Our results show that 19 of the 22 frameworks completed all three benchmarks. Among these, 12 showed stable performance, with mean accuracy of 74.6-75.9%, execution time of 4-6 seconds per task, and cost of 0.14-0.18 cents per task. Poorer results were mainly caused by orchestration problems rather than reasoning limits. For example, Camel failed to complete BBH after 11 days because of uncontrolled context growth, while Upsonic consumed USD 1,434 in one day because repeated extraction failures triggered costly retries. AutoGen and Mastra also exhausted API quotas through iterative interactions that increased prompt length without improving results. We also found a sharp drop in mathematical reasoning. Mean accuracy on GSM8K was 44.35%, compared with 89.80% on BBH and 89.56% on ARC. Overall, this study provides the first large-scale empirical comparison of agentic frameworks for reasoning-intensive software engineering tasks and shows that framework selection should prioritize orchestration quality, especially memory control, failure handling, and cost management.
- Abstract(参考訳): エージェントフレームワークの最近の進歩により、AIエージェントは複雑な推論と意思決定を実行できるようになった。
しかし、それらの推論性能、効率、実用性を比較する証拠は依然として限られている。
このギャップに対処するために、BBH、GSM8K、ARCという3つの推論ベンチマークで22の広く使われているエージェントフレームワークを実証的に評価した。
フレームワークは2023年1月から2025年7月までに収集された1200のGitHubリポジトリから選ばれ、アーキテクチャ設計に基づいて分類された。
我々はそれらを統一的な設定で評価し、推論精度、実行時間、計算コスト、ベンチマーク間の整合性を測定した。
その結果,22のフレームワークのうち19が3つのベンチマークを完了したことがわかった。
このうち12は安定した性能を示し、平均精度は74.6-75.9%、実行時間は4-6秒、コストは0.14-0.18セントだった。
貧弱な結果は、主に制限を推論するのではなく、オーケストレーションの問題によって引き起こされた。
例えば、カメルは制御不能な文脈成長のために11日後にBBHを完了できず、アップソニックは1日で1,434 USDを消費した。
AutoGenとMastraは、結果を改善することなく、迅速な長さを向上する反復的なインタラクションを通じて、APIクォータも使い果たした。
また、数学的推論の急激な低下も見いだした。
GSM8Kの平均精度は44.35%であり、BBHでは89.80%、ARCでは89.56%であった。
全体として、本研究では、推論集約型ソフトウェアエンジニアリングタスクのためのエージェントフレームワークの大規模な比較実験を行い、特にメモリ管理、障害処理、コスト管理など、フレームワークの選択がオーケストレーション品質を優先すべきであることを示す。
関連論文リスト
- CoT2-Meta: Budgeted Metacognitive Control for Test-Time Reasoning [17.364321308755667]
CoT2-Metaはトレーニング不要なメタ認知推論フレームワークである。
オブジェクトレベルの連鎖生成と部分的推論軌道に対するメタレベルの制御を組み合わせる。
強いシングルパス、サンプリングベース、検索ベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2026-03-30T07:59:47Z) - SlopCodeBench: Benchmarking How Coding Agents Degrade Over Long-Horizon Iterative Tasks [55.76734816061826]
我々は20の問題と93のチェックポイントからなる言語に依存しないベンチマークであるSlopCodeBenchを紹介する。
我々は、冗長性、重複コードの割合、構造的侵食という2つの軌道レベルの品質信号を追跡する。
11モデルにまたがるエンドツーエンドの問題を解決するエージェントは存在しない。
論文 参考訳(メタデータ) (2026-03-25T19:26:44Z) - The ARC of Progress towards AGI: A Living Survey of Abstraction and Reasoning [5.870990919877351]
ARC-AGI(Abstraction and Reasoning Corpus)は、AIにおける流体インテリジェンスの重要なベンチマークとなっている。
この調査では、3つのベンチマークバージョンにわたる82のアプローチとARC Prize 2024-2025のコンペティションに関する最初の世代間分析を行った。
論文 参考訳(メタデータ) (2026-03-09T23:16:19Z) - Chain of Simulation: A Dual-Mode Reasoning Framework for Large Language Models with Dynamic Problem Routing [0.0]
Chain of Simulation(CoS)は、動的に問題を特別な推論戦略にルーティングする新しいデュアルモード推論フレームワークである。
CoSは、数学的問題に対する自己整合性を伴う計算フロー、空間的推論のための表現を伴う記号的状態追跡、マルチホップ推論のためのハイブリッド事実抽出という3つの異なる推論モードを採用している。
論文 参考訳(メタデータ) (2026-02-02T21:44:01Z) - ReasoningBomb: A Stealthy Denial-of-Service Attack by Inducing Pathologically Long Reasoning in Large Reasoning Models [67.15960154375131]
大規模推論モデル(LRM)は、多段階推論トレースを明示した大規模言語モデルを拡張する。
この能力は、推論の高い計算コストを生かした、新しいタイプのプロンプト誘発推論時間拒否攻撃(PI-DoS)を導入している。
本稿では,強化学習に基づくPI-DoSフレームワークであるReasoningBombについて紹介する。
論文 参考訳(メタデータ) (2026-01-29T18:53:01Z) - PRIME: Policy-Reinforced Iterative Multi-agent Execution for Algorithmic Reasoning in Large Language Models [5.598141218271656]
大規模言語モデルは様々な推論タスクにまたがって顕著な能力を示してきたが、アルゴリズム的推論のパフォーマンスは依然として限られている。
本稿では,3つの専門エージェントからなるフレームワークPRIME,ステップバイステップ推論のエグゼキュータ,制約チェックの検証器,バックトラック制御のコーディネータを提案する。
これまでで最大のアルゴリズム推論ベンチマークであるPRIME-Benchを導入し,12のカテゴリにわたる86のタスクと51,600のインスタンスを比較検討した。
論文 参考訳(メタデータ) (2026-01-19T07:57:01Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Agent-as-Tool: A Study on the Hierarchical Decision Making with Reinforcement Learning [1.1331292553789585]
大規模言語モデル(LLM)は、人工知能の最も重要な技術進歩の1つとして登場した。
本稿では,ツール呼び出しプロセスと推論プロセスを分離した階層型フレームワークAgent-as-toolを提案する。
我々の研究は180サンプルに対してわずかに強化された微調整を施し、同等の結果を得た。
論文 参考訳(メタデータ) (2025-07-02T08:49:43Z) - Preference Optimization for Reasoning with Pseudo Feedback [100.62603571434167]
提案手法では,解のラベル付けを関連するテストケースに対する評価として行うことで,推論タスクに対する疑似フィードバックを生成する手法を提案する。
本研究では,擬似フィードバックを優先最適化に用いる数学的推論と符号化の両タスクについて実験を行い,両タスク間の改善を観察する。
論文 参考訳(メタデータ) (2024-11-25T12:44:02Z) - Iterative Reasoning Preference Optimization [84.15992372132507]
生成したChain-of-Thought(CoT)候補間の嗜好を最適化するための反復的アプローチを開発する。
このスキームの繰り返し繰り返しにおける推論の改善を示す。
例えば、GSM8Kは55.6%から81.6%に大きく改善され、精度は88.7%となり、32のサンプルのうち多数が投票した。
論文 参考訳(メタデータ) (2024-04-30T17:28:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。