論文の概要: MACReD: A Multi-Agent Collaborative Reasoning Framework for Reaction Diagram Parsing
- arxiv url: http://arxiv.org/abs/2605.28077v1
- Date: Wed, 27 May 2026 07:32:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.847942
- Title: MACReD: A Multi-Agent Collaborative Reasoning Framework for Reaction Diagram Parsing
- Title(参考訳): MACReD:反応図解析のための多エージェント協調推論フレームワーク
- Authors: Chuang Tang, Chenhao Lin, Yin Xu, Hao Wang, Jinrui Zhou, Xin Li, Mingjun Xiao, Enhong Chen,
- Abstract要約: 本稿では,分子認識,矢印理解,テキスト抽出,および反応再構成のための特殊エージェントを統合VLM誘導アーキテクチャ内で協調する階層型マルチエージェントフレームワークを提案する。
RxnScribeベンチマークの実験では、MACReDはハードマッチとソフトマッチの基準で75.2%と84.6%のスコアで最先端のパフォーマンスを達成した。
- 参考スコア(独自算出の注目度): 54.118897112270425
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parsing chemical reaction diagrams from scientific literature is challenging due to heterogeneous layouts, intertwined visual elements, and the difficulty of integrating recognition and reasoning. Existing vision-language models advance multimodal understanding but still fail on complex diagrams, struggling to maintain spatial coherence and to integrate multidimensional information during reasoning. To address these issues, we propose MACReD, a hierarchical multi-agent framework that coordinates specialized agents for molecular perception, arrow understanding, text extraction, and reaction reconstruction within a unified VLM-guided architecture. The planning and perception layers use flexible, fine-grained detection to handle visual complexity, while the reasoning layer uses a multigraph fusion mechanism to integrate heterogeneous cues and enforce chemically consistent global reasoning. Experiments on the RxnScribe benchmark show that MACReD achieves state-of-the-art performance, with F1 scores of 75.2% and 84.6% under hard and soft match criteria, outperforming the RxnScribe baseline, which obtains 69.1% and 80.0%, respectively. These results demonstrate the robustness of MACReD across diverse diagram layouts, including multi-step and tree-structured reactions.
- Abstract(参考訳): 科学的文献から化学反応図を解析することは、不均一なレイアウト、絡み合った視覚要素、認識と推論の統合の難しさにより困難である。
既存の視覚言語モデルはマルチモーダル理解を前進させるが、複雑な図上ではまだ失敗し、空間的コヒーレンスを維持したり、推論中に多次元情報を統合するのに苦労している。
これらの問題に対処するため,分子認識,矢印理解,テキスト抽出,反応再構成などの特殊エージェントを統一的なVLM誘導アーキテクチャで協調する階層型マルチエージェントフレームワークであるMACReDを提案する。
計画層と知覚層は、フレキシブルできめ細かな検出を使って視覚的な複雑さを処理し、推論層は多グラフ融合機構を使って異質な手がかりを統合し、化学的に一貫したグローバルな推論を強制する。
RxnScribeベンチマークの実験では、MACReDは75.2%、F1スコアは84.6%で、それぞれ69.1%と80.0%のRxnScribeベースラインを上回っている。
これらの結果は、多段階および木構造反応を含む様々な図のレイアウトにまたがるMACReDの堅牢性を示している。
関連論文リスト
- ChemVA: Advancing Large Language Models on Chemical Reaction Diagrams Understanding [56.94419746470799]
大規模言語モデル (LLM) は、科学的なテキスト処理に革命をもたらしたが、化学反応図を解釈する際には、大きな能力ギャップが現れる。
本稿では,視覚アンカー機構を用いたケミカルビジュアルアクティベーション(ChemVA)フレームワークを提案する。
我々は,高密度な視覚・セマンティックな文脈を特徴とする新たに構築されたデータセットであるOCRD-Benchに対するアプローチを評価する。
論文 参考訳(メタデータ) (2026-05-17T01:12:50Z) - AffectAgent: Collaborative Multi-Agent Reasoning for Retrieval-Augmented Multimodal Emotion Recognition [62.16431420189863]
LLMに基づくマルチモーダル感情認識は静的なパラメトリックメモリに依存しており、ニュアンス化された感情状態の解釈時にしばしば幻覚を与える。
本稿では,感情指向型マルチエージェント検索拡張生成フレームワークであるAffectAgentを紹介する。
AffectAgentは3つの共同最適化されたエージェント、すなわちクエリプランナー、エビデンスフィルタ、感情生成器から構成される。
論文 参考訳(メタデータ) (2026-04-14T13:49:19Z) - MURE: Hierarchical Multi-Resolution Encoding via Vision-Language Models for Visual Document Retrieval [111.99106496142474]
Visual Document Retrieval (VDR)は、微細な視覚的詳細とグローバルな文書構造の両方をキャプチャする表現を必要とする。
既存のVDRモデルは、高解像度文書を処理する際に効率と効率のバランスをとるのに苦労する。
本稿では,X-VisEmbパラダイムを提案する。X-VisEmbパラダイムは,多分解能サンプリングと符号化から,粒度横断的特徴融合から適応的表現蒸留へと進展する。
論文 参考訳(メタデータ) (2026-03-07T15:17:22Z) - Youtu-GraphRAG: Vertically Unified Agents for Graph Retrieval-Augmented Complex Reasoning [32.78218766121055]
グラフ検索拡張生成(GraphRAG)は,複雑な推論において,大規模言語モデルを効果的に拡張した。
本稿では,フレームワーク全体を複雑な統合として結合する,垂直に統一されたエージェントパラダイムYoutu-GraphRAGを提案する。
論文 参考訳(メタデータ) (2025-08-27T13:13:20Z) - Divide by Question, Conquer by Agent: SPLIT-RAG with Question-Driven Graph Partitioning [62.640169289390535]
SPLIT-RAGは、質問駆動セマンティックグラフ分割と協調サブグラフ検索による制限に対処するマルチエージェントRAGフレームワークである。
革新的なフレームワークは、まずリンク情報のセマンティック分割を作成し、次にタイプ特化知識ベースを使用してマルチエージェントRAGを実現する。
属性対応グラフセグメンテーションは、知識グラフを意味的に一貫性のあるサブグラフに分割し、サブグラフが異なるクエリタイプと整合することを保証する。
階層的なマージモジュールは、論理的検証を通じて、部分グラフ由来の解答間の矛盾を解消する。
論文 参考訳(メタデータ) (2025-05-20T06:44:34Z) - HM-RAG: Hierarchical Multi-Agent Multimodal Retrieval Augmented Generation [11.53083922927901]
HM-RAGは階層型マルチエージェントマルチモーダルRAGフレームワークである。
構造化、非構造化、グラフベースのデータ間での動的知識合成のための協調知能の先駆者である。
論文 参考訳(メタデータ) (2025-04-13T06:55:33Z) - Multi-Margin based Decorrelation Learning for Heterogeneous Face
Recognition [90.26023388850771]
本稿では,超球面空間におけるデコリレーション表現を抽出するディープニューラルネットワーク手法を提案する。
提案するフレームワークは,不均一表現ネットワークとデコリレーション表現学習の2つのコンポーネントに分けることができる。
2つの難解な異種顔データベースに対する実験結果から,本手法は検証タスクと認識タスクの両方において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2020-05-25T07:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。