Fugu-MT 論文翻訳(概要): CF-VLM:CounterFactual Vision-Language Fine-tuning

論文の概要: CF-VLM:CounterFactual Vision-Language Fine-tuning

arxiv url: http://arxiv.org/abs/2506.17267v1
Date: Tue, 10 Jun 2025 20:20:05 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-29 09:28:14.842265
Title: CF-VLM:CounterFactual Vision-Language Fine-tuning
Title（参考訳）: CF-VLM:CounterFactual Vision-Language Fine-tuning
Authors: Jusheng Zhang, Kaitong Cai, Yijia Fan, Jian Wang, Keze Wang,
Abstract要約: CounterFactual Vision-Language Fine-tuning (CF-VLM)は、視覚言語モデルの因果推論能力を高める新しいフレームワークである。 CF-VLMは3つの補完的なトレーニング目標を導入している: 基本的なクロスモーダルアライメントの維持、実写シーン表現のユニークさと安定性の強化、最小限ながら重要な因果編集に対するモデルの感度の強化。
参考スコア（独自算出の注目度）: 10.299136720220416
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advances in vision-language models (VLMs) have greatly improved cross-modal semantic understanding, yet significant limitations remain in fine-grained discrimination and deep causal reasoning tasks. Existing VLMs often rely on superficial statistical correlations, lacking the ability to capture the underlying causal logic between visual and textual content. To address this, we propose CounterFactual Vision-Language Fine-tuning (CF-VLM), a novel framework that enhances the causal reasoning capabilities of VLMs through the targeted use of counterfactual samples. CF-VLM introduces three complementary training objectives: maintaining foundational cross-modal alignment, reinforcing the uniqueness and stability of factual scene representations against coherent counterfactuals, and sharpening the model's sensitivity to minimal but critical causal edits. Extensive experiments demonstrate that CF-VLM consistently outperforms strong baselines and state-of-the-art methods on compositional reasoning and generalization benchmarks. Furthermore, it shows promise in mitigating visual hallucinations, indicating improved factual consistency. Our CF-VLM provides a robust foundation for deploying VLMs in high-stakes, real-world scenarios requiring reliable reasoning and interpretability.
Abstract（参考訳）: 近年の視覚言語モデル(VLM)の進歩により、言語間セマンティック理解は大幅に改善されているが、微粒化差別や深い因果推論タスクには重大な制限が残っている。既存のVLMは、しばしば表面的な統計的相関に依存しており、視覚コンテンツとテキストコンテンツの間に根底にある因果論理を捉える能力が欠如している。そこで本研究では,VLMの因果推論能力を高める新しいフレームワークであるCF-VLM(CounterFactual Vision-Language Fine-tuning)を提案する。 CF-VLMは3つの相補的なトレーニング目標を導入している: 基本的なクロスモーダルアライメントの維持、コヒーレントな反事実に対する実写シーン表現の独自性と安定性の強化、最小限ながら重要な因果編集に対するモデルの感度の強化。 CF-VLMは、構成的推論と一般化のベンチマークにおいて、強いベースラインと最先端の手法を一貫して上回ることを示した。さらに,視覚幻覚の緩和には有望であり,事実整合性の向上が示唆された。我々のCF-VLMは、信頼性の高い推論と解釈可能性を必要とする高レベルで現実的なシナリオにVLMをデプロイするための堅牢な基盤を提供します。

関連論文リスト

Rationale-Enhanced Decoding for Multi-modal Chain-of-Thought [11.538345159297839]
チェーン・オブ・シンクレット(CoT)プロンプトは、多モーダル推論を強化するために、大きな視覚言語モデル(LLM)に適応している。既存のLVLMは、CoT推論において生成された有理性の内容を無視していることが多い。本稿では,新しいプラグイン・アンド・プレイ型推論時間復号法である理性強化復号法(RED)を提案する。
論文参考訳（メタデータ） (2025-07-10T12:07:13Z)
Caption This, Reason That: VLMs Caught in the Middle [3.4820139118440676]
VLM(Vision-Language Models)は近年,視覚的理解の進歩を目覚ましいものにしている。カウントやリレーショナル推論といった視覚的なタスクでは、人間の能力が遅れている。認識,注意,記憶など,コア認知軸に沿ったVLMのパフォーマンスを解析する。
論文参考訳（メタデータ） (2025-05-24T14:25:48Z)
Praxis-VLM: Vision-Grounded Decision Making via Text-Driven Reinforcement Learning [23.7096338281261]
本稿では,視覚的シーンがテキストのみの記述として表現される場合,視覚言語モデルが驚くほど強い意思決定性能が得られることを示す。視覚的意思決定のための推論VLMであるPrxis-VLMを提案する。
論文参考訳（メタデータ） (2025-03-21T09:25:23Z)
REVAL: A Comprehension Evaluation on Reliability and Values of Large Vision-Language Models [59.445672459851274]
REVALは、Large Vision-Language Modelsの textbfREliability と textbfVALue を評価するために設計された包括的なベンチマークである。 REVALには144K以上の画像テキストビジュアル質問回答(VQA)サンプルが含まれており、信頼性と価値の2つの主要なセクションで構成されている。主流のオープンソースLVLMや,GPT-4oやGemini-1.5-Proといった著名なクローズドソースモデルを含む26のモデルを評価した。
論文参考訳（メタデータ） (2025-03-20T07:54:35Z)
Estimating Commonsense Plausibility through Semantic Shifts [66.06254418551737]
セマンティックシフトを測定することでコモンセンスの妥当性を定量化する新しい識別フレームワークであるComPaSSを提案する。 2種類の細粒度コモンセンス可視性評価タスクの評価は,ComPaSSが一貫してベースラインを上回っていることを示している。
論文参考訳（メタデータ） (2025-02-19T06:31:06Z)
Dynamic Cross-Modal Alignment for Robust Semantic Location Prediction [0.0]
本稿では,この課題に固有の文脈的あいまいさとモダリティの相違に対処するための識別フレームワークであるtextitContextualized Vision-Language Alignment (CoVLA)を紹介する。ベンチマークデータセットの実験では、CoVLAは最先端の手法を著しく上回り、精度は2.3%、スコアは2.5%向上した。
論文参考訳（メタデータ） (2024-12-13T05:29:37Z)
VladVA: Discriminative Fine-tuning of LVLMs [67.14293827774827]
CLIPのような対照的に訓練された視覚言語モデル(VLM)は、識別的視覚言語表現学習の事実上のアプローチとなっている。我々は,LVLMの識別的微調整のための新たな訓練手法である「両世界のベスト」を組み合わせることを提案する。
論文参考訳（メタデータ） (2024-12-05T17:54:27Z)
Fine-Grained Verifiers: Preference Modeling as Next-token Prediction in Vision-Language Alignment [57.0121616203175]
本研究では,視覚言語アライメントを改善するための細粒度検証器として,モデル自身のビジュアルエンコーダを利用する新たな自己アライメント手法であるFiSAOを提案する。ビジョンエンコーダからのトークンレベルのフィードバックを活用することで、FiSAOは視覚言語アライメントを大幅に改善する。
論文参考訳（メタデータ） (2024-10-18T03:34:32Z)
ConMe: Rethinking Evaluation of Compositional Reasoning for Modern VLMs [95.15814662348245]
構成推論(CR)は属性、関係、単語の順序の重要さを把握する。近年の視覚言語モデル (VLM) は、そのような推論タスクにおいて顕著な習熟性を示している。
論文参考訳（メタデータ） (2024-06-12T12:54:27Z)
Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models [61.28463542324576]
視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
論文参考訳（メタデータ） (2023-09-08T17:49:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。