論文の概要: CausalVLBench: Benchmarking Visual Causal Reasoning in Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2506.11034v1
- Date: Wed, 21 May 2025 00:45:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-22 23:32:14.49764
- Title: CausalVLBench: Benchmarking Visual Causal Reasoning in Large Vision-Language Models
- Title(参考訳): CausalVLBench:大規模視覚言語モデルにおける視覚因果推論のベンチマーク
- Authors: Aneesh Komanduri, Karuna Bhaila, Xintao Wu,
- Abstract要約: 大規模視覚言語モデル(LVLM)は、認識や視覚的質問応答といったタスクにおいて顕著な性能を示している。
LVLMからのマルチモーダルインコンテキスト学習のための総合因果推論ベンチマークを導入する。
3つの因果表現学習データセットの因果推論タスクにおいて、最先端のオープンソースLVLMの能力を評価する。
- 参考スコア(独自算出の注目度): 10.530681458312412
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown remarkable ability in various language tasks, especially with their emergent in-context learning capability. Extending LLMs to incorporate visual inputs, large vision-language models (LVLMs) have shown impressive performance in tasks such as recognition and visual question answering (VQA). Despite increasing interest in the utility of LLMs in causal reasoning tasks such as causal discovery and counterfactual reasoning, there has been relatively little work showcasing the abilities of LVLMs on visual causal reasoning tasks. We take this opportunity to formally introduce a comprehensive causal reasoning benchmark for multi-modal in-context learning from LVLMs. Our CausalVLBench encompasses three representative tasks: causal structure inference, intervention target prediction, and counterfactual prediction. We evaluate the ability of state-of-the-art open-source LVLMs on our causal reasoning tasks across three causal representation learning datasets and demonstrate their fundamental strengths and weaknesses. We hope that our benchmark elucidates the drawbacks of existing vision-language models and motivates new directions and paradigms in improving the visual causal reasoning abilities of LVLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は様々な言語タスクにおいて顕著な能力を示している。
視覚入力を組み込むためにLLMを拡張し、大きな視覚言語モデル(LVLM)は、認識や視覚的質問応答(VQA)といったタスクにおいて顕著な性能を示した。
因果関係の発見や逆因果関係の推論といった因果関係の推論タスクにおけるLVLMの実用性への関心は高まっているが、視覚的因果関係の推論タスクにおけるLVLMの能力を示す研究は比較的少ない。
本稿では,LVLMによるマルチモーダルインコンテキスト学習のための総合因果推論ベンチマークを正式に導入する。
我々のCausalVLBenchは、因果構造推論、介入目標予測、および反事実予測の3つの代表的なタスクを含む。
我々は3つの因果表現学習データセットの因果推論タスクにおける最先端のオープンソースLVLMの能力を評価し、その基本的な強みと弱点を実証する。
我々は,既存の視覚言語モデルの欠点を解明し,LVLMの視覚因果推論能力の向上に新たな方向性とパラダイムを動機付けることを期待する。
関連論文リスト
- Benchmarking Large Vision-Language Models on Fine-Grained Image Tasks: A Comprehensive Evaluation [53.84282335629258]
我々は、FG-BMKと呼ばれる包括的きめ細かい評価ベンチマークを導入し、1.01万の質問と0.33万の画像を含む。
本評価では,人間指向と機械指向の両方の観点からLVLMを体系的に検討する。
トレーニングパラダイム,モダリティアライメント,摂動感受性,および細粒度カテゴリー推論がタスクパフォーマンスに与える影響について,重要な知見を明らかにした。
論文 参考訳(メタデータ) (2025-04-21T09:30:41Z) - Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - ProReason: Multi-Modal Proactive Reasoning with Decoupled Eyesight and Wisdom [41.369481426130186]
本稿ではProReasonという新しいビジュアル推論フレームワークを紹介する。
ProReasonは、分離されたビジョン推論機能とマルチランプロアクティブな知覚を備えている。
実験の結果, ProReasonは様々なベンチマークにおいて, 既存のマルチステップ推論フレームワークよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-10-18T03:22:06Z) - Enhancing Advanced Visual Reasoning Ability of Large Language Models [20.32900494896848]
VL(Vision-Language)研究の最近の進歩は、複雑な視覚的推論のための新しいベンチマークを引き起こした。
我々はCVR-LLM(Complex Visual Reasoning Large Language Models)を提案する。
提案手法は,反復的自己修正ループを用いて,画像の詳細なコンテキスト認識記述に変換する。
また、LLMの文脈的理解と推論を強化するために、新しいマルチモーダル・インコンテキスト学習(ICL)手法を導入する。
論文 参考訳(メタデータ) (2024-09-21T02:10:19Z) - Multimodal Causal Reasoning Benchmark: Challenging Vision Large Language Models to Discern Causal Links Across Modalities [19.923665989164387]
MuCRはMultimodal Causal Reasoningベンチマークであり、合成シアム画像とテキストペアを利用してMLLMに挑戦する。
実験の結果,現在のMLLMはテキスト環境下での性能に比べ,マルチモーダル因果推論では不足していることがわかった。
本稿では,視覚的手がかりをより強調するVcCoT戦略を提案し,その効果がマルチモーダル因果推論の強化に有効であることを確認した。
論文 参考訳(メタデータ) (2024-08-15T12:04:32Z) - Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models [50.653838482083614]
本稿では,IT-LVLMの基本的なコンピュータビジョンタスクにおける能力を評価するために,スケーラブルなテストベッドを提案する。
MERLIMには300K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
論文 参考訳(メタデータ) (2023-12-03T16:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。