論文の概要: DeALOG: Decentralized Multi-Agents Log-Mediated Reasoning Framework
- arxiv url: http://arxiv.org/abs/2602.00996v1
- Date: Sun, 01 Feb 2026 03:26:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.514163
- Title: DeALOG: Decentralized Multi-Agents Log-Mediated Reasoning Framework
- Title(参考訳): DeALOG: 分散マルチエージェントログメディア推論フレームワーク
- Authors: Abhijit Chakraborty, Ashish Raj Shekhar, Shiven Agarwal, Vivek Gupta,
- Abstract要約: DeALOGはマルチモーダル質問応答のための分散マルチエージェントフレームワークである。
特殊なエージェント: Table、Context、Visual、Summarizing、Verificationを使用する。
- 参考スコア(独自算出の注目度): 7.772295511115406
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Complex question answering across text, tables and images requires integrating diverse information sources. A framework supporting specialized processing with coordination and interpretability is needed. We introduce DeALOG, a decentralized multi-agent framework for multimodal question answering. It uses specialized agents: Table, Context, Visual, Summarizing and Verification, that communicate through a shared natural-language log as persistent memory. This log-based approach enables collaborative error detection and verification without central control, improving robustness. Evaluations on FinQA, TAT-QA, CRT-QA, WikiTableQuestions, FeTaQA, and MultiModalQA show competitive performance. Analysis confirms the importance of the shared log, agent specialization, and verification for accuracy. DeALOG, provides a scalable approach through modular components using natural-language communication.
- Abstract(参考訳): テキスト、テーブル、画像にまたがる複雑な質問応答には、多様な情報ソースを統合する必要がある。
協調性と解釈性を備えた特化処理をサポートするフレームワークが必要である。
マルチモーダル質問応答のための分散マルチエージェントフレームワークであるDeALOGを紹介する。
テーブル、コンテキスト、ビジュアル、要約、検証といった特殊なエージェントを使用し、共有された自然言語ログを永続メモリとして通信する。
このログベースのアプローチは、集中制御なしで協調的なエラー検出と検証を可能にし、堅牢性を向上させる。
FinQA、TAT-QA、CRT-QA、WikiTableQuestions、FeTaQA、MultiModalQAの評価は競合性能を示している。
分析により,共有ログの重要性,エージェントの専門化,精度の検証が確認される。
DeALOGは、自然言語通信を使ったモジュールコンポーネントによるスケーラブルなアプローチを提供する。
関連論文リスト
- Agent-Omni: Test-Time Multimodal Reasoning via Model Coordination for Understanding Anything [12.274140974616747]
MLLM(Multimodal large language model)は強力な能力を示すが、固定されたモダリティペアに限られる。
本稿では,既存の基盤モデルをマスタエージェントシステムで協調するエージェント-オムニフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-04T18:59:09Z) - AgentRouter: A Knowledge-Graph-Guided LLM Router for Collaborative Multi-Agent Question Answering [51.07491603393163]
tAgentは知識グラフ誘導ルーティング問題としてマルチエージェントQAを定式化するフレームワークである。
エージェントアウトプットのソフトな監督と重み付けされた集約を活用することで、エージェントは多様なエージェントの相補的な強みを捉える、原則化された協調スキームを学ぶ。
論文 参考訳(メタデータ) (2025-10-06T23:20:49Z) - Align Your Query: Representation Alignment for Multimodality Medical Object Detection [55.86070915426998]
本稿では,表現をモダリティの文脈と整合させる検出非依存の枠組みを提案する。
モーダリティトークンをマルチモーダリティコンテキスト注意による検出プロセスに統合する。
提案されたアプローチは、最小限のオーバーヘッドとアーキテクチャの変更を伴わず、APを継続的に改善する。
論文 参考訳(メタデータ) (2025-10-03T07:49:21Z) - MMESGBench: Pioneering Multimodal Understanding and Complex Reasoning Benchmark for ESG Tasks [56.350173737493215]
環境・社会・ガバナンス(ESG)報告は、持続可能性の実践の評価、規制コンプライアンスの確保、財務透明性の促進に不可欠である。
MMESGBenchは、マルチモーダル理解と複雑な推論を、構造的に多種多様なマルチソースESG文書間で評価するための、最初のベンチマークデータセットである。
MMESGBenchは、45のESG文書から得られた933の検証済みQAペアで構成され、7つの異なるドキュメントタイプと3つの主要なESGソースカテゴリにまたがる。
論文 参考訳(メタデータ) (2025-07-25T03:58:07Z) - AgentMaster: A Multi-Agent Conversational Framework Using A2A and MCP Protocols for Multimodal Information Retrieval and Analysis [0.0]
本稿では,A2AとMPPを自己実装した新しいモジュール型マルチプロトコールMASフレームワークであるAgentMasterの試験的検討を行う。
このシステムは、先行技術知識のない自然言語インタラクションをサポートし、情報検索、質問応答、画像解析を含むタスクに対するマルチモーダルクエリに応答する。
全体として、提案するフレームワークは、MASを利用したドメイン固有、協調的、スケーラブルな対話型AIの可能性に寄与する。
論文 参考訳(メタデータ) (2025-07-08T03:34:26Z) - AnyMAC: Cascading Flexible Multi-Agent Collaboration via Next-Agent Prediction [77.62279834617475]
本稿では,グラフ構造ではなくシーケンシャル構造を用いて,マルチエージェント協調を再考するフレームワークを提案する。
提案手法は,(1)各ステップで最も適したエージェントロールを選択するNext-Agent Predictionと,(2)各エージェントが前ステップから関連する情報にアクセスできるようにするNext-Context Selectionの2つの重要な方向に焦点を当てる。
論文 参考訳(メタデータ) (2025-06-21T18:34:43Z) - Rethinking Information Synthesis in Multimodal Question Answering A Multi-Agent Perspective [42.832839189236694]
テキスト,テーブル,画像にまたがるマルチモーダル入力のためのマルチエージェントQAフレームワークであるMAMMQAを提案する。
このシステムには2つのVisual Language Model (VLM)エージェントと1つのテキストベースLarge Language Model (LLM)エージェントが含まれる。
多様なマルチモーダルQAベンチマークの実験により、我々の協調型マルチエージェントフレームワークは、精度と堅牢性の両方で既存のベースラインを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2025-05-27T07:23:38Z) - Relation-Aware Language-Graph Transformer for Question Answering [21.244992938222246]
本稿では,言語とグラフを関連づける質問応答変換器(QAT, Question Answering Transformer)を提案する。
具体的には、QATはメタパストークンを構築し、多様な構造的および意味的関係に基づいて関係中心の埋め込みを学習する。
我々は,CommonsenseQA や OpenBookQA などの常識質問応答データセットと,医療質問応答データセット MedQA-USMLE について,QAT の有効性を検証する。
論文 参考訳(メタデータ) (2022-12-02T05:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。