論文の概要: ORCA: Orchestrated Reasoning with Collaborative Agents for Document Visual Question Answering
- arxiv url: http://arxiv.org/abs/2603.02438v1
- Date: Mon, 02 Mar 2026 22:21:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.566244
- Title: ORCA: Orchestrated Reasoning with Collaborative Agents for Document Visual Question Answering
- Title(参考訳): ORCA:視覚的質問応答のための協調エージェントによる組織的推論
- Authors: Aymen Lassoued, Mohamed Ali Souibgui, Yousri Kessentini,
- Abstract要約: ORCA: 文書視覚質問応答のための協調エージェントを用いたオーケストレーション推論について述べる。
我々のフレームワークは、それぞれが異なるモダリティに特化している専門的なAIエージェントのセットを活用し、さまざまなドキュメントコンポーネントをまたいだ詳細な理解と協調的推論を可能にします。
提案手法は最先端の手法よりも大幅に改善され,視覚的きめ細かな推論における協調エージェントシステムのための新しいパラダイムが確立される。
- 参考スコア(独自算出の注目度): 8.852709980681626
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Document Visual Question Answering (DocVQA) remains challenging for existing Vision-Language Models (VLMs), especially under complex reasoning and multi-step workflows. Current approaches struggle to decompose intricate questions into manageable sub-tasks and often fail to leverage specialized processing paths for different document elements. We present ORCA: Orchestrated Reasoning with Collaborative Agents for Document Visual Question Answering, a novel multi-agent framework that addresses these limitations through strategic agent coordination and iterative refinement. ORCA begins with a reasoning agent that decomposes queries into logical steps, followed by a routing mechanism that activates task-specific agents from a specialized agent dock. Our framework leverages a set of specialized AI agents, each dedicated to a distinct modality, enabling fine-grained understanding and collaborative reasoning across diverse document components. To ensure answer reliability, ORCA employs a debate mechanism with stress-testing, and when necessary, a thesis-antithesis adjudication process. This is followed by a sanity checker to ensure format consistency. Extensive experiments on three benchmarks demonstrate that our approach achieves significant improvements over state-of-the-art methods, establishing a new paradigm for collaborative agent systems in vision-language reasoning.
- Abstract(参考訳): Document Visual Question Answering (DocVQA)は、既存のVision-Language Models (VLM) において、特に複雑な推論とマルチステップワークフローにおいて、依然として困難である。
現在のアプローチでは、複雑な質問を管理可能なサブタスクに分解するのに苦労しており、異なるドキュメント要素のための特別な処理パスを活用できないことが多い。
ORCA:Orchestrate Reasoning with Collaborative Agents for Document Visual Question Answeringは,これらの制約に対処する新しいマルチエージェントフレームワークである。
ORCAは、クエリを論理的なステップに分解する推論エージェントから始まる。
当社のフレームワークでは,それぞれが独特なモダリティに特化して,さまざまなドキュメントコンポーネントをまたいだ詳細な理解と協調的推論を可能にする,専門的なAIエージェントのセットを活用しています。
回答の信頼性を確保するため、ORCAはストレステストを伴う議論のメカニズムを採用し、必要に応じて、論文-アンチテーゼの適応プロセスを採用する。
次に、フォーマットの整合性を保証するための正当性チェッカーが続く。
3つのベンチマークの大規模な実験により、我々の手法は最先端の手法よりも大幅に改善され、視覚言語推論における協調エージェントシステムのための新しいパラダイムが確立された。
関連論文リスト
- AgenticSimLaw: A Juvenile Courtroom Multi-Agent Debate Simulation for Explainable High-Stakes Tabular Decision Making [0.6218206949753592]
我々はAgenticSimLawを紹介した。これは、透明で制御可能なテストタイム推論を提供するロール構造化マルチエージェントの議論フレームワークである。
ブラックボックスアプローチとは異なり、裁判所スタイルのオーケストレーションでは、エージェントの役割を明確に定義しています。
NLSY97データセットを用いて、この枠組みを若者の復習予測にベンチマークする。
論文 参考訳(メタデータ) (2026-01-29T16:26:10Z) - Beyond Monolithic Architectures: A Multi-Agent Search and Knowledge Optimization Framework for Agentic Search [56.78490647843876]
エージェント検索は、大規模言語モデル(LLM)が推論とツールの使用をインターリーブできるようにすることによって、複雑な情報を探すための有望なパラダイムとして登場した。
本稿では,bfM-ASKを提案する。bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK。
論文 参考訳(メタデータ) (2026-01-08T08:13:27Z) - COMPASS: Enhancing Agent Long-Horizon Reasoning with Evolving Context [17.575806280348797]
小さなエラーはステップにまたがって複雑で、最先端のモデルでさえしばしばコヒーレンスを幻覚または失う。
本稿では,戦術的実行,戦略的監視,文脈的組織を3つの特殊コンポーネントに分離する軽量階層型フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-09T20:14:26Z) - AgentRouter: A Knowledge-Graph-Guided LLM Router for Collaborative Multi-Agent Question Answering [51.07491603393163]
tAgentは知識グラフ誘導ルーティング問題としてマルチエージェントQAを定式化するフレームワークである。
エージェントアウトプットのソフトな監督と重み付けされた集約を活用することで、エージェントは多様なエージェントの相補的な強みを捉える、原則化された協調スキームを学ぶ。
論文 参考訳(メタデータ) (2025-10-06T23:20:49Z) - Learning to Summarize by Learning to Quiz: Adversarial Agentic Collaboration for Long Document Summarization [86.98098988779809]
SummQは長期文書要約のための新しい逆多重エージェントフレームワークである。
提案手法では,包括的な要約を作成し,評価するために協調作業を行う要約ジェネレータとレビュアーを用いる。
広範に使用されている3つの文書要約ベンチマーク上でSummQを評価する。
論文 参考訳(メタデータ) (2025-09-25T08:36:19Z) - Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling [83.78874399606379]
テスト時間スケーリングを備えたマルチエージェント協調フレームワークであるMACTを提案する。
4つの異なる小規模エージェントから構成され、明確に定義された役割と効果的なコラボレーションがある。
一般および数学的タスクの能力を犠牲にすることなく、より小さなパラメータスケールで優れた性能を示す。
論文 参考訳(メタデータ) (2025-08-05T12:52:09Z) - Deep Research Agents: A Systematic Examination And Roadmap [109.53237992384872]
Deep Research (DR) エージェントは複雑な多ターン情報研究タスクに取り組むように設計されている。
本稿では,DRエージェントを構成する基礎技術とアーキテクチャコンポーネントの詳細な分析を行う。
論文 参考訳(メタデータ) (2025-06-22T16:52:48Z) - MA-RAG: Multi-Agent Retrieval-Augmented Generation via Collaborative Chain-of-Thought Reasoning [36.3918410061572]
MA-RAGは、複雑な情報探索タスクにおける固有の曖昧さと推論の問題に対処する。
エンドツーエンドの微調整や分離されたコンポーネント拡張に依存する従来のRAGメソッドとは異なり、MA-RAGは特別なAIエージェントの協調的なセットを編成する。
本結果は,検索強化システムにおける協調的,モジュール型推論の有効性を浮き彫りにしたものである。
論文 参考訳(メタデータ) (2025-05-26T15:05:18Z) - A Desideratum for Conversational Agents: Capabilities, Challenges, and Future Directions [51.96890647837277]
大規模言語モデル(LLM)は、従来の対話システムから、自律的な行動、文脈認識、ユーザとのマルチターンインタラクションが可能な高度なエージェントへと、会話AIを推進してきた。
本調査では,人間レベルの知性にアプローチするよりスケーラブルなシステムにおいて,何が達成されたのか,どのような課題が持続するのか,何を行う必要があるのか,といった,次世代の会話エージェントのデシラトゥムを提示する。
論文 参考訳(メタデータ) (2025-04-07T21:01:25Z) - Agent-Oriented Planning in Multi-Agent Systems [54.429028104022066]
マルチエージェントシステムにおけるエージェント指向計画のための新しいフレームワークであるAOPを提案する。
本研究では, エージェント指向計画の3つの重要な設計原則, 可解性, 完全性, 非冗長性を明らかにする。
大規模実験は,マルチエージェントシステムにおける単一エージェントシステムと既存の計画戦略と比較して,現実の問題を解決する上でのAOPの進歩を実証している。
論文 参考訳(メタデータ) (2024-10-03T04:07:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。