Fugu-MT 論文翻訳(概要): What's Missing in Vision-Language Models? Probing Their Struggles with Causal Order Reasoning

論文の概要: What's Missing in Vision-Language Models? Probing Their Struggles with Causal Order Reasoning

arxiv url: http://arxiv.org/abs/2506.00869v1
Date: Sun, 01 Jun 2025 07:17:46 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-05 04:22:50.687204
Title: What's Missing in Vision-Language Models? Probing Their Struggles with Causal Order Reasoning
Title（参考訳）: 視覚言語モデルに欠けているものは何か? 因果順序推論による構造解析
Authors: Zhaotian Weng, Haoxuan Li, Kuan-Hao Huang, Jieyu Zhao,
Abstract要約: 因果推論は、複雑な高レベルの推論タスクを解決するのに基本である。既存のベンチマークには、しばしば推論の質問が混在している。 VQA-CausalとVCR-Causalを導入し,因果推論能力の分離と厳密な評価を行った。
参考スコア（独自算出の注目度）: 26.671128120554457
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite the impressive performance of vision-language models (VLMs) on downstream tasks, their ability to understand and reason about causal relationships in visual inputs remains unclear. Robust causal reasoning is fundamental to solving complex high-level reasoning tasks, yet existing benchmarks often include a mixture of reasoning questions, and VLMs can frequently exploit object recognition and activity identification as shortcuts to arrive at the correct answers, making it challenging to truly assess their causal reasoning abilities. To bridge this gap, we introduce VQA-Causal and VCR-Causal, two new benchmarks specifically designed to isolate and rigorously evaluate VLMs' causal reasoning abilities. Our findings reveal that while VLMs excel in object and activity recognition, they perform poorly on causal reasoning tasks, often only marginally surpassing random guessing. Further analysis suggests that this limitation stems from a severe lack of causal expressions in widely used training datasets, where causal relationships are rarely explicitly conveyed. We additionally explore fine-tuning strategies with hard negative cases, showing that targeted fine-tuning can improve model's causal reasoning while maintaining generalization and downstream performance. Our study highlights a key gap in current VLMs and lays the groundwork for future work on causal understanding.
Abstract（参考訳）: 下流タスクにおける視覚言語モデル(VLM)の印象的な性能にもかかわらず、視覚入力における因果関係を理解する能力と推論能力は未だ不明である。複雑な高レベルの推論タスクを解決するために、ロバスト因果推論は基本的なものであるが、既存のベンチマークには、しばしば推論の質問が混ざり合っており、VLMは、正しい答えに到達するためのショートカットとして、オブジェクト認識とアクティビティ識別を頻繁に活用することができるため、因果推論能力の真の評価は困難である。このギャップを埋めるために、VQA-CausalとVCR-Causalという2つの新しいベンチマークを導入する。以上の結果から, VLMは対象と活動の認識に優れるが, 因果推論のタスクは不十分であり, ランダムな推測をわずかに上回っていることが判明した。さらに分析したところ、この制限は、因果関係が明確に伝達されることが滅多にない、広く使われている訓練データセットにおける因果表現の深刻な欠如に起因することが示唆されている。さらに,厳格な負の場合による微調整戦略についても検討し,一般化と下流性能を維持しながら,目標とした微調整がモデルの因果推論を改善することを示した。本研究は,現在のVLMにおける重要なギャップを浮き彫りにして,今後の因果理解研究の基盤となるものと考えられる。

関連論文リスト

Caption This, Reason That: VLMs Caught in the Middle [3.4820139118440676]
VLM(Vision-Language Models)は近年,視覚的理解の進歩を目覚ましいものにしている。カウントやリレーショナル推論といった視覚的なタスクでは、人間の能力が遅れている。認識,注意,記憶など,コア認知軸に沿ったVLMのパフォーマンスを解析する。
論文参考訳（メタデータ） (2025-05-24T14:25:48Z)
CausalVLBench: Benchmarking Visual Causal Reasoning in Large Vision-Language Models [10.530681458312412]
大規模視覚言語モデル(LVLM)は、認識や視覚的質問応答といったタスクにおいて顕著な性能を示している。 LVLMからのマルチモーダルインコンテキスト学習のための総合因果推論ベンチマークを導入する。 3つの因果表現学習データセットの因果推論タスクにおいて、最先端のオープンソースLVLMの能力を評価する。
論文参考訳（メタデータ） (2025-05-21T00:45:15Z)
VCRBench: Exploring Long-form Causal Reasoning Capabilities of Large Video Language Models [29.706347050700867]
ビデオベース長周期因果推論(VCRBench)という新しいベンチマークを導入する。 VCRBenchは、LVLM(Large Video Language Model)が特定の目標を達成するために必要なイベントを特定し、推論し、正しくシーケンスできるかどうかをテストする。本稿では,ビデオに基づく因果推論を,ビデオ認識と因果推論の2つのサブタスクに分割するモジュラーアプローチである認識推論分解(RRD)を提案する。
論文参考訳（メタデータ） (2025-05-13T11:35:58Z)
Why Is Spatial Reasoning Hard for VLMs? An Attention Mechanism Perspective on Focus Areas [52.478956204238315]
機械的解釈可能性のレンズによる空間的推論の課題について検討する。空間的推論の成功は、実際の物体の位置と注意を一致させるモデルの能力と強く相関している。本研究の目的は,ADAPTVISを用いて,信頼性の高い地域への注意を喚起することである。
論文参考訳（メタデータ） (2025-03-03T17:57:03Z)
Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文参考訳（メタデータ） (2025-01-08T18:31:16Z)
COLD: Causal reasOning in cLosed Daily activities [7.782872276680731]
我々はCOLD(Causal reasOning in cLosed Daily activities)フレームワークを提案する。出来事の因果性を理解するために、日々の現実的な活動に対する人間の理解に基づいて構築されている。提案手法は,膨大な因果クエリ作成を容易にする。
論文参考訳（メタデータ） (2024-11-29T06:37:13Z)
Failure Modes of LLMs for Causal Reasoning on Narratives [51.19592551510628]
本研究では,大言語モデル(LLM)の因果推論能力について,物語から因果関係を推定する代表的な問題から検討する。最新の言語モデルでさえ、物語の提示とパラメトリック知識の両方において、信頼できないショートカットに依存していることがわかった。
論文参考訳（メタデータ） (2024-10-31T12:48:58Z)
From Pre-training Corpora to Large Language Models: What Factors Influence LLM Performance in Causal Discovery Tasks? [51.42906577386907]
本研究では,因果発見タスクにおけるLarge Language Models(LLM)の性能に影響を与える要因について検討する。因果関係の頻度が高いことは、より良いモデル性能と相関し、トレーニング中に因果関係の情報に広範囲に暴露することで、因果関係の発見能力を高めることを示唆している。
論文参考訳（メタデータ） (2024-07-29T01:45:05Z)
A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文参考訳（メタデータ） (2023-11-14T07:13:10Z)
Concise and Organized Perception Facilitates Reasoning in Large Language Models [31.238220405009617]
推論に取り組むために大規模な言語モデル(LLM)をエクスプロイトすることは、注目を集めている。複雑な論理的問題において満足な結果を達成することは依然として非常に困難であり、コンテキスト内の多くの前提とマルチホップ推論が特徴である。本研究は,まず情報フローの観点からそのメカニズムを考察し,不規則な内容や無関係な内容を扱う際に,人間のような認知バイアスに類似した困難に直面することを明らかにする。
論文参考訳（メタデータ） (2023-10-05T04:47:49Z)
Towards CausalGPT: A Multi-Agent Approach for Faithful Knowledge Reasoning via Promoting Causal Consistency in LLMs [55.66353783572259]
Causal-Consistency Chain-of-Thoughtは、基礎モデルの忠実さと因果性を強化するために、マルチエージェントコラボレーションを活用する。我々のフレームワークは、広範囲かつ包括的な評価を通じて、最先端の手法よりも大きな優位性を示す。
論文参考訳（メタデータ） (2023-08-23T04:59:21Z)
Causal Triplet: An Open Challenge for Intervention-centric Causal Representation Learning [98.78136504619539]
Causal Tripletは、視覚的に複雑なシーンを特徴とする因果表現学習ベンチマークである。この結果から,不整合表現やオブジェクト中心表現の知識によって構築されたモデルが,分散表現よりもはるかに優れていることを示す。
論文参考訳（メタデータ） (2023-01-12T17:43:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。