論文の概要: CF-VLM:CounterFactual Vision-Language Fine-tuning
- arxiv url: http://arxiv.org/abs/2506.17267v1
- Date: Tue, 10 Jun 2025 20:20:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-29 09:28:14.842265
- Title: CF-VLM:CounterFactual Vision-Language Fine-tuning
- Title(参考訳): CF-VLM:CounterFactual Vision-Language Fine-tuning
- Authors: Jusheng Zhang, Kaitong Cai, Yijia Fan, Jian Wang, Keze Wang,
- Abstract要約: CounterFactual Vision-Language Fine-tuning (CF-VLM)は、視覚言語モデルの因果推論能力を高める新しいフレームワークである。
CF-VLMは3つの補完的なトレーニング目標を導入している: 基本的なクロスモーダルアライメントの維持、実写シーン表現のユニークさと安定性の強化、最小限ながら重要な因果編集に対するモデルの感度の強化。
- 参考スコア(独自算出の注目度): 10.299136720220416
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in vision-language models (VLMs) have greatly improved cross-modal semantic understanding, yet significant limitations remain in fine-grained discrimination and deep causal reasoning tasks. Existing VLMs often rely on superficial statistical correlations, lacking the ability to capture the underlying causal logic between visual and textual content. To address this, we propose CounterFactual Vision-Language Fine-tuning (CF-VLM), a novel framework that enhances the causal reasoning capabilities of VLMs through the targeted use of counterfactual samples. CF-VLM introduces three complementary training objectives: maintaining foundational cross-modal alignment, reinforcing the uniqueness and stability of factual scene representations against coherent counterfactuals, and sharpening the model's sensitivity to minimal but critical causal edits. Extensive experiments demonstrate that CF-VLM consistently outperforms strong baselines and state-of-the-art methods on compositional reasoning and generalization benchmarks. Furthermore, it shows promise in mitigating visual hallucinations, indicating improved factual consistency. Our CF-VLM provides a robust foundation for deploying VLMs in high-stakes, real-world scenarios requiring reliable reasoning and interpretability.
- Abstract(参考訳): 近年の視覚言語モデル(VLM)の進歩により、言語間セマンティック理解は大幅に改善されているが、微粒化差別や深い因果推論タスクには重大な制限が残っている。
既存のVLMは、しばしば表面的な統計的相関に依存しており、視覚コンテンツとテキストコンテンツの間に根底にある因果論理を捉える能力が欠如している。
そこで本研究では,VLMの因果推論能力を高める新しいフレームワークであるCF-VLM(CounterFactual Vision-Language Fine-tuning)を提案する。
CF-VLMは3つの相補的なトレーニング目標を導入している: 基本的なクロスモーダルアライメントの維持、コヒーレントな反事実に対する実写シーン表現の独自性と安定性の強化、最小限ながら重要な因果編集に対するモデルの感度の強化。
CF-VLMは、構成的推論と一般化のベンチマークにおいて、強いベースラインと最先端の手法を一貫して上回ることを示した。
さらに,視覚幻覚の緩和には有望であり,事実整合性の向上が示唆された。
我々のCF-VLMは、信頼性の高い推論と解釈可能性を必要とする高レベルで現実的なシナリオにVLMをデプロイするための堅牢な基盤を提供します。
関連論文リスト
- Do MLLMs Really See It: Reinforcing Visual Attention in Multimodal LLMs [55.61018839017648]
CoT(Chain-of- Thought)推論は、複雑な推論タスクにおいて、MLLM(Multimodal large language model)を大幅に改善した。
既存のアプローチは、主に長いテキスト推論軌道に依存し、安定した視覚的注意ポリシーを学ぶための限られたメカニズムを提供する。
地域レベルの視覚的注意に基づく報酬を導入する強化学習フレームワークを用いて訓練された視覚的推論モデルであるSAYOを提案する。
論文 参考訳(メタデータ) (2026-02-09T03:33:23Z) - Vision-aligned Latent Reasoning for Multi-modal Large Language Model [82.26044667101011]
VaLR(Vision-aligned Latent Reasoning)は、思考の連鎖の推論ステップの前に動的に視覚対応の潜在トークンを生成するフレームワークである。
VaLRは、MLLMの中間埋め込みを視覚エンコーダのものと整合させることにより、推論中の視覚的知識の保存を訓練する。
論文 参考訳(メタデータ) (2026-02-04T12:04:02Z) - Youtu-VL: Unleashing Visual Potential via Unified Vision-Language Supervision [79.06371915084833]
本稿では,VLUAS(Vision-Language Unified Autoregressive Supervision)パラダイムを活用するフレームワークであるYoutu-VLを紹介する。
Youtu-VLは視覚的詳細と言語的内容の両方に統一的な自己回帰的監督を適用している。
我々は、このパラダイムを視覚中心のタスクに拡張し、標準のVLMがタスク固有の追加なしで視覚中心のタスクを実行できるようにした。
論文 参考訳(メタデータ) (2026-01-27T17:01:16Z) - Semantic Misalignment in Vision-Language Models under Perceptual Degradation [2.9140696506330723]
視覚知覚の制御下において視覚言語モデル(VLM)における意味的ミスアライメントについて検討する。
ダウンストリームVLMの動作に深刻な障害がみられ, 幻覚的対象の言及, 安全クリティカルな実体の欠落, 不整合性判定などが観察された。
以上の結果から,画素レベルのロバスト性とマルチモーダルなセマンティックな信頼性との明確な不一致が明らかとなり,現在のVLMシステムにとって重要な限界が浮き彫りになった。
論文 参考訳(メタデータ) (2026-01-13T09:13:05Z) - MAPS: Preserving Vision-Language Representations via Module-Wise Proximity Scheduling for Better Vision-Language-Action Generalization [30.871663465403625]
我々は、視覚・言語・アクション(VLA)モデルのための、最初の堅牢な微調整フレームワークであるMAPSを紹介する。
系統解析により,安定性と柔軟性のバランスをとるために近接制約を緩和する経験的順序を明らかにする。
MAPSはこの緩和を線形にスケジュールし、視覚エンコーダは事前訓練された事前に近づき、アクション指向の言語層はより自由に適応できる。
論文 参考訳(メタデータ) (2025-11-25T03:39:37Z) - When Alignment Fails: Multimodal Adversarial Attacks on Vision-Language-Action Models [75.16145284285456]
我々は,White-box設定とBlack-box設定の両方の下で,組込みVLAモデルのマルチモーダル対向ロバスト性に関する総合的研究であるVLA-Foolを紹介する。
自動生成および意味的に誘導されるプロンプトフレームワークを最初に開発する。
LIBEROベンチマークの実験では、小さなマルチモーダル摂動でさえ大きな行動偏差を引き起こすことが示されている。
論文 参考訳(メタデータ) (2025-11-20T10:14:32Z) - Rationale-Enhanced Decoding for Multi-modal Chain-of-Thought [11.538345159297839]
チェーン・オブ・シンクレット(CoT)プロンプトは、多モーダル推論を強化するために、大きな視覚言語モデル(LLM)に適応している。
既存のLVLMは、CoT推論において生成された有理性の内容を無視していることが多い。
本稿では,新しいプラグイン・アンド・プレイ型推論時間復号法である理性強化復号法(RED)を提案する。
論文 参考訳(メタデータ) (2025-07-10T12:07:13Z) - Caption This, Reason That: VLMs Caught in the Middle [3.4820139118440676]
VLM(Vision-Language Models)は近年,視覚的理解の進歩を目覚ましいものにしている。
カウントやリレーショナル推論といった視覚的なタスクでは、人間の能力が遅れている。
認識,注意,記憶など,コア認知軸に沿ったVLMのパフォーマンスを解析する。
論文 参考訳(メタデータ) (2025-05-24T14:25:48Z) - Praxis-VLM: Vision-Grounded Decision Making via Text-Driven Reinforcement Learning [23.7096338281261]
本稿では,視覚的シーンがテキストのみの記述として表現される場合,視覚言語モデルが驚くほど強い意思決定性能が得られることを示す。
視覚的意思決定のための推論VLMであるPrxis-VLMを提案する。
論文 参考訳(メタデータ) (2025-03-21T09:25:23Z) - REVAL: A Comprehension Evaluation on Reliability and Values of Large Vision-Language Models [59.445672459851274]
REVALは、Large Vision-Language Modelsの textbfREliability と textbfVALue を評価するために設計された包括的なベンチマークである。
REVALには144K以上の画像テキストビジュアル質問回答(VQA)サンプルが含まれており、信頼性と価値の2つの主要なセクションで構成されている。
主流のオープンソースLVLMや,GPT-4oやGemini-1.5-Proといった著名なクローズドソースモデルを含む26のモデルを評価した。
論文 参考訳(メタデータ) (2025-03-20T07:54:35Z) - Estimating Commonsense Plausibility through Semantic Shifts [66.06254418551737]
セマンティックシフトを測定することでコモンセンスの妥当性を定量化する新しい識別フレームワークであるComPaSSを提案する。
2種類の細粒度コモンセンス可視性評価タスクの評価は,ComPaSSが一貫してベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2025-02-19T06:31:06Z) - Dynamic Cross-Modal Alignment for Robust Semantic Location Prediction [0.0]
本稿では,この課題に固有の文脈的あいまいさとモダリティの相違に対処するための識別フレームワークであるtextitContextualized Vision-Language Alignment (CoVLA)を紹介する。
ベンチマークデータセットの実験では、CoVLAは最先端の手法を著しく上回り、精度は2.3%、スコアは2.5%向上した。
論文 参考訳(メタデータ) (2024-12-13T05:29:37Z) - VladVA: Discriminative Fine-tuning of LVLMs [67.14293827774827]
CLIPのような対照的に訓練された視覚言語モデル(VLM)は、識別的視覚言語表現学習の事実上のアプローチとなっている。
我々は,LVLMの識別的微調整のための新たな訓練手法である「両世界のベスト」を組み合わせることを提案する。
論文 参考訳(メタデータ) (2024-12-05T17:54:27Z) - Fine-Grained Verifiers: Preference Modeling as Next-token Prediction in Vision-Language Alignment [57.0121616203175]
本研究では,視覚言語アライメントを改善するための細粒度検証器として,モデル自身のビジュアルエンコーダを利用する新たな自己アライメント手法であるFiSAOを提案する。
ビジョンエンコーダからのトークンレベルのフィードバックを活用することで、FiSAOは視覚言語アライメントを大幅に改善する。
論文 参考訳(メタデータ) (2024-10-18T03:34:32Z) - ConMe: Rethinking Evaluation of Compositional Reasoning for Modern VLMs [95.15814662348245]
構成推論(CR)は属性、関係、単語の順序の重要さを把握する。
近年の視覚言語モデル (VLM) は、そのような推論タスクにおいて顕著な習熟性を示している。
論文 参考訳(メタデータ) (2024-06-12T12:54:27Z) - Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models [61.28463542324576]
視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。
我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。
本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-08T17:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。