Fugu-MT 論文翻訳(概要): CausalVLBench: Benchmarking Visual Causal Reasoning in Large Vision-Language Models

論文の概要: CausalVLBench: Benchmarking Visual Causal Reasoning in Large Vision-Language Models

arxiv url: http://arxiv.org/abs/2506.11034v1
Date: Wed, 21 May 2025 00:45:15 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-22 23:32:14.49764
Title: CausalVLBench: Benchmarking Visual Causal Reasoning in Large Vision-Language Models
Title（参考訳）: CausalVLBench:大規模視覚言語モデルにおける視覚因果推論のベンチマーク
Authors: Aneesh Komanduri, Karuna Bhaila, Xintao Wu,
Abstract要約: 大規模視覚言語モデル(LVLM)は、認識や視覚的質問応答といったタスクにおいて顕著な性能を示している。 LVLMからのマルチモーダルインコンテキスト学習のための総合因果推論ベンチマークを導入する。 3つの因果表現学習データセットの因果推論タスクにおいて、最先端のオープンソースLVLMの能力を評価する。
参考スコア（独自算出の注目度）: 10.530681458312412
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have shown remarkable ability in various language tasks, especially with their emergent in-context learning capability. Extending LLMs to incorporate visual inputs, large vision-language models (LVLMs) have shown impressive performance in tasks such as recognition and visual question answering (VQA). Despite increasing interest in the utility of LLMs in causal reasoning tasks such as causal discovery and counterfactual reasoning, there has been relatively little work showcasing the abilities of LVLMs on visual causal reasoning tasks. We take this opportunity to formally introduce a comprehensive causal reasoning benchmark for multi-modal in-context learning from LVLMs. Our CausalVLBench encompasses three representative tasks: causal structure inference, intervention target prediction, and counterfactual prediction. We evaluate the ability of state-of-the-art open-source LVLMs on our causal reasoning tasks across three causal representation learning datasets and demonstrate their fundamental strengths and weaknesses. We hope that our benchmark elucidates the drawbacks of existing vision-language models and motivates new directions and paradigms in improving the visual causal reasoning abilities of LVLMs.
Abstract（参考訳）: 大規模言語モデル(LLM)は様々な言語タスクにおいて顕著な能力を示している。視覚入力を組み込むためにLLMを拡張し、大きな視覚言語モデル(LVLM)は、認識や視覚的質問応答(VQA)といったタスクにおいて顕著な性能を示した。因果関係の発見や逆因果関係の推論といった因果関係の推論タスクにおけるLVLMの実用性への関心は高まっているが、視覚的因果関係の推論タスクにおけるLVLMの能力を示す研究は比較的少ない。本稿では,LVLMによるマルチモーダルインコンテキスト学習のための総合因果推論ベンチマークを正式に導入する。我々のCausalVLBenchは、因果構造推論、介入目標予測、および反事実予測の3つの代表的なタスクを含む。我々は3つの因果表現学習データセットの因果推論タスクにおける最先端のオープンソースLVLMの能力を評価し、その基本的な強みと弱点を実証する。我々は,既存の視覚言語モデルの欠点を解明し,LVLMの視覚因果推論能力の向上に新たな方向性とパラダイムを動機付けることを期待する。

関連論文リスト

Caption This, Reason That: VLMs Caught in the Middle [3.4820139118440676]
VLM(Vision-Language Models)は近年,視覚的理解の進歩を目覚ましいものにしている。カウントやリレーショナル推論といった視覚的なタスクでは、人間の能力が遅れている。認識,注意,記憶など,コア認知軸に沿ったVLMのパフォーマンスを解析する。
論文参考訳（メタデータ） (2025-05-24T14:25:48Z)
Can MLLMs Guide Me Home? A Benchmark Study on Fine-Grained Visual Reasoning from Transit Maps [56.76175383189738]
MLLMの詳細な視覚的理解と空間的推論能力を評価するためのベンチマークであるReasonMapを紹介する。 ReasonMapには、13か国30都市からの高解像度のトランジットマップが含まれており、2つの質問タイプと3つのテンプレートにまたがる1008の質問応答ペアが含まれている。基本および推論変種を含む15種類のMLLMの包括的評価は、直感的パターンを示す。
論文参考訳（メタデータ） (2025-05-24T12:33:52Z)
Benchmarking Large Vision-Language Models on Fine-Grained Image Tasks: A Comprehensive Evaluation [53.84282335629258]
我々は、FG-BMKと呼ばれる包括的きめ細かい評価ベンチマークを導入し、1.01万の質問と0.33万の画像を含む。本評価では,人間指向と機械指向の両方の観点からLVLMを体系的に検討する。トレーニングパラダイム,モダリティアライメント,摂動感受性,および細粒度カテゴリー推論がタスクパフォーマンスに与える影響について,重要な知見を明らかにした。
論文参考訳（メタデータ） (2025-04-21T09:30:41Z)
Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文参考訳（メタデータ） (2025-01-08T18:31:16Z)
Benchmarking and Improving Large Vision-Language Models for Fundamental Visual Graph Understanding and Reasoning [33.85555387495046]
LVLM(Large Vision-Language Models)は、様々なタスクにまたがる顕著な性能を示す。近年の研究では、LVLMは視覚グラフに係わる際にかなりの制限を受けることが示されている。 LVLMの基本的グラフ理解と推論能力を調べるための22のタスクをカバーするベンチマークであるVGCureを提案する。
論文参考訳（メタデータ） (2024-12-18T06:35:18Z)
ProReason: Multi-Modal Proactive Reasoning with Decoupled Eyesight and Wisdom [41.369481426130186]
本稿ではProReasonという新しいビジュアル推論フレームワークを紹介する。 ProReasonは、分離されたビジョン推論機能とマルチランプロアクティブな知覚を備えている。実験の結果, ProReasonは様々なベンチマークにおいて, 既存のマルチステップ推論フレームワークよりも優れていることがわかった。
論文参考訳（メタデータ） (2024-10-18T03:22:06Z)
Enhancing Advanced Visual Reasoning Ability of Large Language Models [20.32900494896848]
VL(Vision-Language)研究の最近の進歩は、複雑な視覚的推論のための新しいベンチマークを引き起こした。我々はCVR-LLM(Complex Visual Reasoning Large Language Models)を提案する。提案手法は,反復的自己修正ループを用いて,画像の詳細なコンテキスト認識記述に変換する。また、LLMの文脈的理解と推論を強化するために、新しいマルチモーダル・インコンテキスト学習(ICL)手法を導入する。
論文参考訳（メタデータ） (2024-09-21T02:10:19Z)
Multimodal Causal Reasoning Benchmark: Challenging Vision Large Language Models to Discern Causal Links Across Modalities [19.923665989164387]
MuCRはMultimodal Causal Reasoningベンチマークであり、合成シアム画像とテキストペアを利用してMLLMに挑戦する。実験の結果,現在のMLLMはテキスト環境下での性能に比べ,マルチモーダル因果推論では不足していることがわかった。本稿では,視覚的手がかりをより強調するVcCoT戦略を提案し,その効果がマルチモーダル因果推論の強化に有効であることを確認した。
論文参考訳（メタデータ） (2024-08-15T12:04:32Z)
RelationVLM: Making Large Vision-Language Models Understand Visual Relations [66.70252936043688]
本稿では,複数の画像にまたがっても動画内でも,様々なレベルの関係を解釈できる大規模視覚言語モデルであるRelationVLMを提案する。具体的には,多段階的な関係認識学習手法とそれに対応するデータ構成戦略を考案し,意味的関係を理解する能力を備えた関係VLMを提案する。
論文参考訳（メタデータ） (2024-03-19T15:01:19Z)
How Far Are We from Intelligent Visual Deductive Reasoning? [41.4377002379162]
私たちは、より洗練されているが探求の少ない領域である、視覚に基づく誘惑的推論を掘り下げる。現在のSOTA VLMでは、未公表の盲点が発見されている。 LLMに適用した場合に有効な標準的な戦略は、視覚的推論タスクによってもたらされる課題にシームレスに対応しないことがわかった。
論文参考訳（メタデータ） (2024-03-07T18:35:54Z)
Good Questions Help Zero-Shot Image Reasoning [110.1671684828904]
質問駆動型視覚探索(QVix)は、大規模視覚言語モデル(LVLM)の探索能力を高める新しい促進戦略である。 QVixは、視覚的なシーンのより広い探索を可能にし、視覚的な質問応答や視覚的エンターテイメントといったタスクにおけるLVLMの推論精度と深さを改善している。我々は,ScienceQAやきめ細かな視覚分類など,難易度の高いゼロショット視覚言語ベンチマークの評価を行い,QVixが既存の手法よりも優れていることを示した。
論文参考訳（メタデータ） (2023-12-04T03:18:51Z)
Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models [50.653838482083614]
本稿では,IT-LVLMの基本的なコンピュータビジョンタスクにおける能力を評価するために,スケーラブルなテストベッドを提案する。 MERLIMには300K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
論文参考訳（メタデータ） (2023-12-03T16:39:36Z)
Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。 LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文参考訳（メタデータ） (2023-10-02T01:00:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。