論文の概要: Do Multi-Agents Solve Better Than Single? Evaluating Agentic Frameworks for Diagram-Grounded Geometry Problem Solving and Reasoning
- arxiv url: http://arxiv.org/abs/2512.16698v1
- Date: Thu, 18 Dec 2025 16:00:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.142229
- Title: Do Multi-Agents Solve Better Than Single? Evaluating Agentic Frameworks for Diagram-Grounded Geometry Problem Solving and Reasoning
- Title(参考訳): 複数エージェントの解法は単体より優れているか? : 図解と推論のためのエージェントフレームワークの評価
- Authors: Mahbub E Sobhani, Md. Faiyaz Abdullah Sayeedi, Mohammad Nehad Alam, Proma Hossain Progga, Swakkhar Shatabda,
- Abstract要約: 4つの視覚的ベンチマークで,単一エージェントとマルチエージェントのパイプラインを比較した。
オープンソースモデルでは、マルチエージェントは一貫してパフォーマンスを改善します。
クローズドソースのGemini-2.0-Flashは、一般的にシングルエージェントモードでパフォーマンスが向上する。
- 参考スコア(独自算出の注目度): 2.0334567793400184
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diagram-grounded geometry problem solving is a critical benchmark for multimodal large language models (MLLMs), yet the benefits of multi-agent design over single-agent remain unclear. We systematically compare single-agent and multi-agent pipelines on four visual math benchmarks: Geometry3K, MathVerse, OlympiadBench, and We-Math. For open-source models, multi-agent consistently improves performance. For example, Qwen-2.5-VL (7B) gains +6.8 points and Qwen-2.5-VL (32B) gains +3.3 on Geometry3K, and both Qwen-2.5-VL variants see further gains on OlympiadBench and We-Math. In contrast, the closed-source Gemini-2.0-Flash generally performs better in single-agent mode on classic benchmarks, while multi-agent yields only modest improvements on the newer We-Math dataset. These findings show that multi-agent pipelines provide clear benefits for open-source models and can assist strong proprietary systems on newer, less familiar benchmarks, but agentic decomposition is not universally optimal. All code, data, and reasoning files are available at https://github.com/faiyazabdullah/Interpreter-Solver
- Abstract(参考訳): ダイアグラム基底幾何問題はマルチモーダル大言語モデル(MLLM)にとって重要なベンチマークであるが、単一エージェントに対するマルチエージェント設計の利点はいまだ不明である。
我々は、Geometry3K、MathVerse、OlympiadBench、We-Mathの4つのビジュアル数学ベンチマークにおいて、単一エージェントとマルチエージェントのパイプラインを体系的に比較した。
オープンソースモデルでは、マルチエージェントは一貫してパフォーマンスを改善します。
例えば、Qwen-2.5-VL (7B) は +6.8 点で、Qwen-2.5-VL (32B) は Geometry3K 上で +3.3 で、Qwen-2.5-VL はともに OlympiadBench と We-Math でさらに高くなる。
これとは対照的に、クローズドソースのGemini-2.0-Flashは、古典的なベンチマークではシングルエージェントモードの方がパフォーマンスが良く、マルチエージェントは、新しいWe-Mathデータセットではわずかに改善されている。
これらの結果は、マルチエージェントパイプラインがオープンソースモデルに明確な利点をもたらし、より新しい、あまり馴染みのないベンチマークで強力なプロプライエタリシステムを支援することができることを示しているが、エージェント分解は普遍的に最適ではない。
すべてのコード、データ、推論ファイルはhttps://github.com/faiyazabdullah/Interpreter-Solverで入手できる。
関連論文リスト
- AgentGit: A Version Control Framework for Reliable and Scalable LLM-Powered Multi-Agent Systems [7.408263799616532]
AgentGitはGitライクなロールバックとブランチをマルチエージェントシステム(MAS)にもたらすフレームワークです。
AgentGitは冗長、ランタイム、トークンの使用を著しく削減し、複数のブランチをまたいだ並列探索をサポートしています。
この作業は、より堅牢なMAS設計への実践的なパスを提供し、コラボレーティブAIシステムにおけるエラー回復、安全な探索、計算、A/Bテストを可能にする。
論文 参考訳(メタデータ) (2025-11-01T17:11:31Z) - TUMIX: Multi-Agent Test-Time Scaling with Tool-Use Mixture [60.945393748584316]
本稿では,複数のエージェントを並列に実行するアンサンブルフレームワークを提案する。
TUmixは、最先端のツール拡張およびテストタイムスケーリングメソッドよりも大幅に向上する。
エージェントの多様性と品質は重要であり,LLMを用いてエージェント設計を自動最適化することで向上することができる。
論文 参考訳(メタデータ) (2025-09-30T19:19:56Z) - Graph of Agents: Principled Long Context Modeling by Emergent Multi-Agent Collaboration [9.151759069858924]
本稿では,モデルに依存しない長期コンテキストモデリング問題を圧縮問題として定式化するフレームワークを提案する。
この目的を最大化する入力依存の協調構造を動的に構築するグラフ・オブ・エージェント(GoA)を提案する。
GoAはLongBenchの128KコンテキストウィンドウであるLlama 3.1 8Bを超え、有効コンテキスト長が劇的に増加した。
論文 参考訳(メタデータ) (2025-09-26T04:15:40Z) - CodeAgents: A Token-Efficient Framework for Codified Multi-Agent Reasoning in LLMs [16.234259194402163]
マルチエージェント推論を符号化し、マルチエージェントシステムにおける構造化されたトークン効率の計画を可能にするプロンプトフレームワークであるCodeAgentsを紹介する。
その結果, 計画性能は一貫した改善がみられ, 基本となる自然言語よりも3~36ポイントの絶対的な向上が見られた。
論文 参考訳(メタデータ) (2025-07-04T02:20:19Z) - S*: Test Time Scaling for Code Generation [55.11863577956177]
コード生成のための最初のハイブリッドテストタイムスケーリングフレームワークであるS*を提案する。
S*は生成されたコードのカバレッジと選択精度を大幅に改善する。
論文 参考訳(メタデータ) (2025-02-20T09:18:53Z) - GraphTeam: Facilitating Large Language Model-based Graph Analysis via Multi-Agent Collaboration [31.07238612043854]
GraphTeamは3つのモジュールから5つのLLMベースのエージェントで構成されており、異なる特殊性を持つエージェントは複雑な問題に対処するために協力することができる。
6つのグラフ分析ベンチマークの実験は、GraphTeamが最先端のパフォーマンスを達成し、精度の点で最高のベースラインよりも平均25.85%改善していることを示している。
論文 参考訳(メタデータ) (2024-10-23T17:02:59Z) - Agent-FLAN: Designing Data and Methods of Effective Agent Tuning for Large Language Models [56.00992369295851]
オープンソースのLarge Language Models(LLM)は、さまざまなNLPタスクで大きな成功を収めていますが、エージェントとして振る舞う場合、それでもAPIベースのモデルよりもはるかに劣っています。
本稿では,(1) エージェント学習コーパスを,(1) エージェント学習データの分布から大きくシフトするエージェント推論と,(2) エージェントタスクが必要とする能力に異なる学習速度を示すエージェント学習コーパスと,(3) 幻覚を導入することでエージェント能力を改善する際の副作用について述べる。
本稿では,エージェントのためのFLANモデルを効果的に構築するためのエージェントFLANを提案する。
論文 参考訳(メタデータ) (2024-03-19T16:26:10Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。
アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。
この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - MPLP++: Fast, Parallel Dual Block-Coordinate Ascent for Dense Graphical
Models [96.1052289276254]
この研究は、人気のあるDual Block-Coordinate Ascent原則に基づく新しいMAP-solverを導入している。
驚いたことに、性能の低い解法に小さな変更を加えることで、既存の解法を大きなマージンで大幅に上回る新しい解法MPLP++を導出します。
論文 参考訳(メタデータ) (2020-04-16T16:20:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。