論文の概要: Cross Domain Evaluation of Multimodal Chain-of-Thought Reasoning of different datasets into the Amazon CoT Framework
- arxiv url: http://arxiv.org/abs/2511.20701v1
- Date: Mon, 24 Nov 2025 16:20:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.767186
- Title: Cross Domain Evaluation of Multimodal Chain-of-Thought Reasoning of different datasets into the Amazon CoT Framework
- Title(参考訳): 異なるデータセットのAmazon CoTフレームワークへのマルチモーダル連鎖推論のクロスドメイン評価
- Authors: Nitya Tiwari, Parv Maheshwari, Vidisha Agarwal,
- Abstract要約: 本研究はマルチモーダル・チェーン・オブ・ソート(Multimodal-CoT)推論の包括的解析を行う。
A-OKVQA,OKVQA,ChartQAのデータセット上での有効性を評価する。
その結果,視覚統合は理性発生における幻覚を著しく減少させるが,CoT推論の有効性は質問の種類によって大きく異なることがわかった。
- 参考スコア(独自算出の注目度): 1.7842332554022695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While recent work has extended CoT to multimodal settings, achieving state-of-the-art results on science question answering benchmarks like ScienceQA, the generalizability of these approaches across diverse domains remains underexplored. This work presents a comprehensive analysis of Multimodal Chain-of-Thought (Multimodal-CoT) reasoning, evaluating its effectiveness on the A-OKVQA, OKVQA and ChartQA datasets, which requires broad commonsense and world knowledge beyond scientific reasoning. We implement the two-stage framework proposed by Zhang et al. [3], which separates rationale generation from answer inference and integrates vision features through a gated fusion mechanism with T5-based language models. Through systematic ablation studies, we analyze the contributions of vision features, rationale quality, and architectural choices. Our findings reveal that while vision integration significantly reduces hallucination in rationale generation, the effectiveness of CoT reasoning varies substantially across question types, with commonsense reasoning presenting particular challenges. This work provides practical insights for researchers implementing multimodal reasoning systems and identifies key areas for future improvement in cross-domain generalization.
- Abstract(参考訳): 最近の研究は、CoTをマルチモーダルな設定に拡張し、ScienceQAのような科学質問応答ベンチマークで最先端の結果を得たが、これらのアプローチの様々な領域での一般化性はまだ未定である。
本研究はマルチモーダル・チェーン・オブ・ソート(Multimodal-CoT)推論の包括的解析を行い,A-OKVQA,OKVQA,ChartQAデータセットの有効性を評価する。
Zhang et al [3]により提案された2段階のフレームワークを実装し、応答推論から有理生成を分離し、T5ベースの言語モデルとのゲート融合機構を通じて視覚特徴を統合する。
組織的アブレーション研究を通じて、視覚的特徴、合理的品質、建築的選択の貢献を分析する。
その結果,視覚統合は理性発生における幻覚を著しく減少させるが,CoT推論の有効性は質問の種類によって大きく異なり,共通感覚推論は特定の課題を呈することがわかった。
本研究は、マルチモーダル推論システムを実装する研究者に実践的な洞察を与え、ドメイン間一般化における将来の改善の鍵となる領域を特定する。
関連論文リスト
- Survey of Multimodal Geospatial Foundation Models: Techniques, Applications, and Challenges [54.669838624278924]
基礎モデルは自然言語処理とコンピュータビジョンに変化をもたらした。
強力な一般化と伝達学習機能により、リモートセンシングデータのマルチモーダル、マルチレゾリューション、マルチ時間特性と自然に一致させる。
この調査は、モーダリティ駆動の観点から、マルチモーダルGFMの包括的なレビューを提供する。
論文 参考訳(メタデータ) (2025-10-27T03:40:00Z) - Decoding the Multimodal Maze: A Systematic Review on the Adoption of Explainability in Multimodal Attention-based Models [0.0]
この体系的な文献レビューは、マルチモーダルモデルの説明可能性に焦点を当てた2020年1月から2024年初頭に発表された研究を分析している。
マルチモーダル環境におけるXAIの評価手法は, ほぼ非体系的であり, 一貫性, 堅牢性, モダリティ特有の認知的・文脈的要因の考慮が欠如していることが判明した。
論文 参考訳(メタデータ) (2025-08-06T13:14:20Z) - Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models [79.52467430114805]
推論は知性の中心にあり、決定し、結論を導き、ドメインをまたいで一般化する能力を形成する。
人工知能において、システムがオープンで不確実でマルチモーダルな環境でますます機能するにつれて、推論は堅牢で適応的な行動を可能にするために不可欠となる。
大規模マルチモーダル推論モデル(LMRM)は、テキスト、画像、オーディオ、ビデオなどのモダリティを統合し、複雑な推論機能をサポートする、有望なパラダイムとして登場した。
論文 参考訳(メタデータ) (2025-05-08T03:35:23Z) - Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey [124.23247710880008]
マルチモーダルCoT (MCoT) 推論は近年大きな研究の注目を集めている。
既存のMCoT研究は、画像、ビデオ、音声、オーディオ、3D、構造化データの課題に対処する様々な手法を設計している。
我々はMCoT推論に関する最初の体系的な調査を行い、関連する基礎概念と定義を解明する。
論文 参考訳(メタデータ) (2025-03-16T18:39:13Z) - Multimodal Alignment and Fusion: A Survey [11.3029945633295]
このサーベイは、機械学習分野におけるマルチモーダルアライメントと融合の進歩に関する包括的概要を提供する。
我々は、両構造の観点から、アライメントと融合の鍵となるアプローチを体系的に分類し、分析する。
この調査は、クロスモーダルなミスアライメント、計算ボトルネック、データ品質の問題、モダリティギャップといった重要な課題を強調します。
論文 参考訳(メタデータ) (2024-11-26T02:10:27Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z) - Enhancing Human-like Multi-Modal Reasoning: A New Challenging Dataset
and Comprehensive Framework [51.44863255495668]
マルチモーダル推論は、人間のような知性を示す人工知能システムの追求において重要な要素である。
提案するマルチモーダル推論(COCO-MMR)データセットは,オープンエンド質問の集合を包含する新しいデータセットである。
画像とテキストエンコーダを強化するために,マルチホップ・クロスモーダル・アテンションや文レベルのコントラスト学習などの革新的な手法を提案する。
論文 参考訳(メタデータ) (2023-07-24T08:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。