Fugu-MT 論文翻訳(概要): Multimodal Causal Reasoning Benchmark: Challenging Vision Large Language Models to Discern Causal Links Across Modalities

論文の概要: Multimodal Causal Reasoning Benchmark: Challenging Vision Large Language Models to Discern Causal Links Across Modalities

arxiv url: http://arxiv.org/abs/2408.08105v4
Date: Mon, 26 May 2025 03:04:03 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-28 14:37:18.453415
Title: Multimodal Causal Reasoning Benchmark: Challenging Vision Large Language Models to Discern Causal Links Across Modalities
Title（参考訳）: マルチモーダル因果推論ベンチマーク:モーダリティ間の因果関係を識別する視覚的大言語モデル
Authors: Zhiyuan Li, Heng Wang, Dongnan Liu, Chaoyi Zhang, Ao Ma, Jieting Long, Weidong Cai,
Abstract要約: MuCRはMultimodal Causal Reasoningベンチマークであり、合成シアム画像とテキストペアを利用してMLLMに挑戦する。実験の結果,現在のMLLMはテキスト環境下での性能に比べ,マルチモーダル因果推論では不足していることがわかった。本稿では,視覚的手がかりをより強調するVcCoT戦略を提案し,その効果がマルチモーダル因果推論の強化に有効であることを確認した。
参考スコア（独自算出の注目度）: 19.923665989164387
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multimodal Large Language Models (MLLMs) have showcased exceptional Chain-of-Thought (CoT) reasoning ability in complex textual inference tasks including causal reasoning. However, will these causalities remain straightforward when crucial hints hide in visual details? If not, what factors might influence cross-modal generalization? Whether we can effectively enhance their capacity for robust causal inference across both text and vision? Motivated by these, we introduce MuCR - a novel Multimodal Causal Reasoning benchmark that leverages synthetic siamese images and text pairs to challenge MLLMs. Additionally, we develop tailored metrics from multiple perspectives, including image-level match, phrase-level understanding, and sentence-level explanation, to comprehensively assess MLLMs' comprehension abilities. Our experiments reveal that current MLLMs fall short in multimodal causal reasoning compared to their performance in purely textual settings. Additionally, we find that identifying visual cues across images is key to effective cross-modal generalization. Finally, we propose a VcCoT strategy that better highlights visual cues, and our results confirm its efficacy in enhancing multimodal causal reasoning. The project is available at: https://github.com/Zhiyuan-Li-John/MuCR
Abstract（参考訳）: MLLM(Multimodal Large Language Models)は、因果推論を含む複雑なテキスト推論タスクにおいて、例外的なChain-of-Thought(CoT)推論能力を示した。しかし、これらの因果関係は、重要なヒントが視覚的な詳細を隠した場合、そのまま残るのだろうか? もしそうでなければ、クロスモーダル一般化に影響を及ぼす要因は何か? テキストと視覚の両方で、堅牢な因果推論の能力を効果的に向上できるか? そこで本研究では,合成シアム画像とテキストペアを利用してMLLMに挑戦する,新しいマルチモーダル因果推論ベンチマークである MuCR を紹介する。さらに,MLLMの理解能力を総合的に評価するために,画像レベルのマッチング,フレーズレベルの理解,文レベルの説明など,複数の視点から調整されたメトリクスを開発する。実験の結果,現在のMLLMはテキスト環境下での性能に比べ,マルチモーダル因果推論では不足していることがわかった。さらに,画像間での視覚的手がかりの同定が,効果的なクロスモーダル一般化の鍵となることが判明した。最後に、視覚的手がかりをより強調するVcCoT戦略を提案し、その結果、マルチモーダル因果推論の強化における有効性を確認した。このプロジェクトは、https://github.com/Zhiyuan-Li-John/MuCRで入手できる。

関連論文リスト

Rethinking the Text-Vision Reasoning Imbalance in MLLMs through the Lens of Training Recipes [54.374410871041164]
MLLM(Multimodal large language model)は、視覚・言語タスクにおいて強力な機能を示す。近年の研究では、視覚的・テキスト的モダリティ間の推論能力の不均衡が指摘されている。我々は、この現象を、テキスト中心と視覚中心の入力のパフォーマンス格差として定義される、テクティモダリティギャップと呼ぶ。
論文参考訳（メタデータ） (2025-10-26T21:06:13Z)
Reasoning in the Dark: Interleaved Vision-Text Reasoning in Latent Space [66.76138204796497]
マルチモーダル推論は、最終回答に到達する前に中間推論ステップを組み込むことでMLLMの能力を高めることを目的としている。本稿では,視覚情報とテキスト情報の両方を潜在空間内の推論プロセスに注入するInterleaved Vision-Text Latent Reasoning (IVT-LR)を提案する。 M3CoTとScienceQAの実験により、我々のIVT-LR法は5.45%の精度で平均的な性能向上を実現し、同時に既存の手法に比べて5倍以上の速度向上を実現した。
論文参考訳（メタデータ） (2025-10-14T14:58:25Z)
Advancing Multimodal Reasoning Capabilities of Multimodal Large Language Models via Visual Perception Reward [87.06604760273372]
本稿では,MLLMに視覚内容の正確な知覚を促す新しい視覚認識報酬を導入するPerception-R1を提案する。本稿では,Perception-R1が1,442のトレーニングデータのみを用いて,ほとんどのベンチマークで最先端のパフォーマンスを実現することを示す。
論文参考訳（メタデータ） (2025-06-08T16:48:42Z)
VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.03333569013148]
VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
論文参考訳（メタデータ） (2025-04-21T17:59:53Z)
Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning [53.790502697674754]
本稿では、画像入力を重要な推論段階に移行する戦略であるTake-Allong Visual Conditioning (TVC)を提案する。 TVCは、推論を通して視覚的なコンポーネントへの注意を維持するのに役立つ。提案手法は,5つの数学的推論ベンチマークにおいて,最先端の性能を平均で達成する。
論文参考訳（メタデータ） (2025-03-17T16:45:12Z)
VERIFY: A Benchmark of Visual Explanation and Reasoning for Investigating Multimodal Reasoning Fidelity [34.29409506366145]
VERIFYは最先端MLLMの視覚的推論能力を分離し、厳格に評価するために設計されたベンチマークである。それぞれの問題には人手による推論パスが伴い、モデル決定プロセスの詳細な評価を初めて提供する。本稿では,従来のモデル推論パターンにおける重要な不均衡を浮き彫りにして,単なる精度を超える視覚的推論の忠実さを評価する新しい指標を提案する。
論文参考訳（メタデータ） (2025-03-14T16:26:11Z)
VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文参考訳（メタデータ） (2025-02-25T23:36:19Z)
VisFactor: Benchmarking Fundamental Visual Cognition in Multimodal Large Language Models [62.667142971664575]
因子関連認知テスト(FRCT)から得られた新しいベンチマークであるVisFactorを紹介する。 VisFactorは視覚関連FRCTサブテストのデジタル化を行い、基本的な視覚認知タスク間でMLLMを体系的に評価する。 GPT-4o, Gemini-Pro, Qwen-VLなどの最先端MLLMの総合評価を行った。
論文参考訳（メタデータ） (2025-02-23T04:21:32Z)
Imagine while Reasoning in Space: Multimodal Visualization-of-Thought [70.74453180101365]
大型言語モデル(LLM)とマルチモーダル大規模言語モデル(MLLM)の複雑な推論を強化するために、CoTプロンプト(Chain-of-Thought)が有効であることが証明された。我々は新しい推論パラダイムであるMultimodal Visualization-of-Thought (MVoT)を提案する。 MLLMにおいて、推論トレースの画像視覚化を生成することにより、視覚的思考を可能にする。
論文参考訳（メタデータ） (2025-01-13T18:23:57Z)
CoMT: A Novel Benchmark for Chain of Multi-modal Thought on Large Vision-Language Models [60.08485416687596]
Chain of Multi-modal Thought (CoMT)ベンチマークは、視覚操作を本質的に統合する人間のような推論を模倣することを目的としている。我々は様々なLVLMと戦略をCoMT上で評価し、現在のアプローチの能力と限界に関する重要な洞察を明らかにした。
論文参考訳（メタデータ） (2024-12-17T14:10:16Z)
Thinking Before Looking: Improving Multimodal LLM Reasoning via Mitigating Visual Hallucination [13.706325901731665]
MLLM(Multimodal large language model)は、視覚的・言語的モダリティの統合を推進している。思考の連鎖(CoT)推論のような現在のアプローチは、大規模言語モデル(LLM)の認知能力を増強している。しかし、MLLMへの適応は、相互モダリティ理解における幻覚のリスクの増大によって妨げられている。
論文参考訳（メタデータ） (2024-11-15T21:01:37Z)
ProReason: Multi-Modal Proactive Reasoning with Decoupled Eyesight and Wisdom [42.03770972100087]
本稿ではProReasonという新しいビジュアル推論フレームワークを紹介する。 ProReasonは、マルチランプロアクティブな知覚と分離されたビジョン推論機能を備えている。実験の結果、ProReasonは既存のマルチステップ推論フレームワークとパッシブピアメソッドの両方より優れていることがわかった。
論文参考訳（メタデータ） (2024-10-18T03:22:06Z)
Enhancing Advanced Visual Reasoning Ability of Large Language Models [20.32900494896848]
VL(Vision-Language)研究の最近の進歩は、複雑な視覚的推論のための新しいベンチマークを引き起こした。我々はCVR-LLM(Complex Visual Reasoning Large Language Models)を提案する。提案手法は,反復的自己修正ループを用いて,画像の詳細なコンテキスト認識記述に変換する。また、LLMの文脈的理解と推論を強化するために、新しいマルチモーダル・インコンテキスト学習(ICL)手法を導入する。
論文参考訳（メタデータ） (2024-09-21T02:10:19Z)
Benchmarking Multi-Image Understanding in Vision and Language Models: Perception, Knowledge, Reasoning, and Multi-Hop Reasoning [15.296263261737026]
マルチイメージMIRBベンチマークを導入し、複数の画像を比較し、分析し、推論する視覚言語モデルの能力を評価する。私たちのベンチマークには、知覚、視覚世界知識、推論、マルチホップ推論の4つのカテゴリが含まれています。オープンソースVLMはシングルイメージタスクにおいてGPT-4Vに接近することを示したが、マルチイメージ推論タスクでは大きなギャップが残っている。
論文参考訳（メタデータ） (2024-06-18T16:02:18Z)
Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文参考訳（メタデータ） (2024-04-24T17:59:48Z)
Quantifying and Mitigating Unimodal Biases in Multimodal Large Language Models: A Causal Perspective [9.633811630889237]
本稿では,視覚質問応答(VQA)問題におけるバイアスを解釈するための因果的枠組みを提案する。マルチホップ推論を必要とする12,000の挑戦VQAインスタンスを備えた新しいデータセットを導入する。実験の結果, MLLMはMOREに悪影響を及ぼし, 強い一方向偏差と限定的な意味理解を示すことがわかった。
論文参考訳（メタデータ） (2024-03-27T08:38:49Z)
RelationVLM: Making Large Vision-Language Models Understand Visual Relations [66.70252936043688]
本稿では,複数の画像にまたがっても動画内でも,様々なレベルの関係を解釈できる大規模視覚言語モデルであるRelationVLMを提案する。具体的には,多段階的な関係認識学習手法とそれに対応するデータ構成戦略を考案し,意味的関係を理解する能力を備えた関係VLMを提案する。
論文参考訳（メタデータ） (2024-03-19T15:01:19Z)
NPHardEval4V: A Dynamic Reasoning Benchmark of Multimodal Large Language Models [34.91372939329467]
MLLMの純粋推論能力を評価するためのベンチマークであるNPHardEval4Vを導入する。異なるモデルにまたがる推論能力に有意な差が認められた。また,視覚,テキスト,視覚とテキストの組み合わせがMLLMの推論能力に与える影響についても検討した。
論文参考訳（メタデータ） (2024-03-04T07:10:31Z)
CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文参考訳（メタデータ） (2024-02-21T08:21:12Z)
Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs [50.77984109941538]
近年のマルチモーダル LLM の視覚能力は, いまだに系統的な欠点を呈している。 CLIP-blind pairs'(CLIP-blind pairs)を識別する。様々なCLIPに基づく視覚・言語モデルの評価を行い、CLIPモデルに挑戦する視覚パターンとマルチモーダルLLMの問題との間に顕著な相関関係を見出した。
論文参考訳（メタデータ） (2024-01-11T18:58:36Z)
Causal-CoG: A Causal-Effect Look at Context Generation for Boosting Multi-modal Language Models [10.429515738164342]
Causal Context Generation, Causal-CoGは、推論中に正確なVQAを強化するためにコンテキスト情報を扱うプロンプト戦略である。 10のマルチモーダルベンチマークで広範な実験を行い、一貫した改善を示した。私たちはCasual-CoGがマルチモーダルモデルにおける文脈知識の探索を刺激し、デコードのためのプラグアンドプレイ戦略として機能することを願っている。
論文参考訳（メタデータ） (2023-12-09T08:44:41Z)
Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models [50.653838482083614]
本稿では,IT-LVLMの基本的なコンピュータビジョンタスクにおける能力を評価するために,スケーラブルなテストベッドを提案する。 MERLIMには300K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
論文参考訳（メタデータ） (2023-12-03T16:39:36Z)
See, Think, Confirm: Interactive Prompting Between Vision and Language Models for Knowledge-based Visual Reasoning [60.43585179885355]
本稿では,知識に基づく視覚推論のための新しいフレームワークであるInteractive Prompting Visual Reasoner(IPVR)を提案する。 IPVRには3つのステージがある。我々は,知識に基づく視覚的推論データセットについて実験を行った。
論文参考訳（メタデータ） (2023-01-12T18:59:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。