論文の概要: Bi-MCQ: Reformulating Vision-Language Alignment for Negation Understanding
- arxiv url: http://arxiv.org/abs/2601.22696v1
- Date: Fri, 30 Jan 2026 08:14:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.31592
- Title: Bi-MCQ: Reformulating Vision-Language Alignment for Negation Understanding
- Title(参考訳): Bi-MCQ:否定理解のためのビジョン言語アライメントの改革
- Authors: Tae Hun Kim, Hyun Gyu Lee,
- Abstract要約: Bi-MCQは、最先端のZero CARモデルのゼロショット性能に対して、最大0.47 MCQ AUCの否定的理解を改善する。
Bi-MCQはInfoNCEベースの微調整と比較して、肯定的負のAUCギャップを平均0.12削減する。
- 参考スコア(独自算出の注目度): 8.633836909967581
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent vision-language models (VLMs) achieve strong zero-shot performance via large-scale image-text pretraining and have been widely adopted in medical image analysis. However, existing VLMs remain notably weak at understanding negated clinical statements, largely due to contrastive alignment objectives that treat negation as a minor linguistic variation rather than a meaning-inverting operator. In multi-label settings, prompt-based InfoNCE fine-tuning further reinforces easy-positive image-prompt alignments, limiting effective learning of disease absence. To overcome these limitations, we reformulate vision-language alignment as a conditional semantic comparison problem, which is instantiated through a bi-directional multiple-choice learning framework(Bi-MCQ). By jointly training Image-to-Text and Text-to-Image MCQ tasks with affirmative, negative, and mixed prompts, our method implements fine-tuning as conditional semantic comparison instead of global similarity maximization. We further introduce direction-specific Cross-Attention fusion modules to address asymmetric cues required by bi-directional reasoning and reduce alignment interference. Experiments on ChestXray14, Open-I, CheXpert, and PadChest show that Bi-MCQ improves negation understanding by up to 0.47 AUC over the zero-shot performance of the state-of-the-art CARZero model, while achieving up to a 0.08 absolute gain on positive-negative combined (PNC) evaluation. Additionally, Bi-MCQ reduces the affirmative-negative AUC gap by an average of 0.12 compared to InfoNCE-based fine-tuning, demonstrating that objective reformulation can substantially enhance negation understanding in medical VLMs.
- Abstract(参考訳): 近年の視覚言語モデル (VLM) は, 大規模画像テキスト事前学習によって強力なゼロショット性能を達成し, 医用画像解析に広く採用されている。
しかしながら、既存のVLMは、否定的臨床的ステートメントを理解する上で、特に弱いままであり、主に、否定を意味を逆転させるオペレータではなく、小さな言語的バリエーションとして扱う、対照的なアライメントの目的のためである。
マルチラベル設定では、インフォネッションベースの微調整により、より容易なイメージプロンプトアライメントが強化され、病気の欠如の効果的な学習が制限される。
これらの制約を克服するため,両方向多重選択学習フレームワーク(Bi-MCQ)を用いて,条件付きセマンティック比較問題として視覚言語アライメントを再構成する。
画像とテキストと画像間のMCQタスクを肯定的,否定的,混合的なプロンプトで共同トレーニングすることにより,大域的な類似度最大化ではなく,条件付きセマンティック比較として微調整を実現する。
さらに、双方向推論で要求される非対称なキューに対処し、アライメント干渉を低減するために、方向特異的なクロスアテンション融合モジュールを導入する。
ChestXray14、Open-I、CheXpert、PadChestの実験では、Bi-MCQは最先端のCARZeroモデルのゼロショット性能よりも最大0.47AUCの否定的理解を改善する一方で、正負の組合せ(PNC)の評価では最大0.08絶対ゲインを達成する。
さらに、Bi-MCQはInfoNCEベースの微調整と比較して、肯定的負のAUCギャップを平均0.12削減し、客観的な改質が医療用VLMにおける否定的理解を大幅に向上させることを示した。
関連論文リスト
- FaNe: Towards Fine-Grained Cross-Modal Contrast with False-Negative Reduction and Text-Conditioned Sparse Attention [19.49398094732301]
False Negatives (FaNe) は意味論的に類似したテキストによって誘導され、微粒なクロスモーダルアライメントが不十分である。
FaNeは画像分類、オブジェクト検出、セマンティックセグメンテーションにまたがって最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-11-15T13:37:21Z) - Enhancing CLIP Robustness via Cross-Modality Alignment [54.01929554563447]
視覚言語モデルのための最適なトランスポートベースフレームワークであるクロスモダリティアライメントを提案する。
COLAは、グローバルな画像テキストアライメントと特徴空間における局所的な構造的一貫性を復元する。
COLAはトレーニングフリーで、既存の微調整モデルと互換性がある。
論文 参考訳(メタデータ) (2025-10-28T03:47:44Z) - UniME-V2: MLLM-as-a-Judge for Universal Multimodal Embedding Learning [101.62386137855704]
本稿では,Universal Multimodal Embedding (UniME-V2)モデルを提案する。
提案手法はまず,グローバル検索による潜在的な負のセットを構築する。
次に、MLLMを用いてクエリ候補対のセマンティックアライメントを評価するMLLM-as-a-Judge機構を提案する。
これらのスコアは、ハード・ネガティブ・マイニングの基礎となり、偽陰性の影響を緩和し、多様な高品質なハード・ネガティブの識別を可能にする。
論文 参考訳(メタデータ) (2025-10-15T13:07:00Z) - XBusNet: Text-Guided Breast Ultrasound Segmentation via Multimodal Vision-Language Learning [0.0]
XBusNetは、画像の特徴と臨床的な接地されたテキストを組み合わせた、新しいデュアルプロンプトでデュアルブランチのマルチモーダルモデルである。
5倍のクロスバリデーションを用いて,乳腺病変USG(BLU)データセット上で評価を行った。
小さな病変は最大の増加を示し、欠落した領域は少なく、急激な活性化は少ない。
論文 参考訳(メタデータ) (2025-09-08T20:45:55Z) - Estimating Commonsense Plausibility through Semantic Shifts [66.06254418551737]
セマンティックシフトを測定することでコモンセンスの妥当性を定量化する新しい識別フレームワークであるComPaSSを提案する。
2種類の細粒度コモンセンス可視性評価タスクの評価は,ComPaSSが一貫してベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2025-02-19T06:31:06Z) - Vision-Language Models Do Not Understand Negation [50.27667000027403]
NegBenchは18のタスクバリエーションと79ドルのサンプルに対する否定的理解を評価するために設計されたベンチマークである。
提案手法は, 否定的クエリに対するリコールが10%増加し, 否定的キャプションを用いた複数質問に対する精度が28%向上することを示す。
論文 参考訳(メタデータ) (2025-01-16T09:55:42Z) - DuSSS: Dual Semantic Similarity-Supervised Vision-Language Model for Semi-Supervised Medical Image Segmentation [4.523111195300109]
半教師付き医療画像セグメンテーション(SSMIS)は、整合性学習を用いてモデルのトレーニングを規則化する。
SSMISは、しばしば低品質の擬似ラベルのエラー管理に悩まされる。
SSMISのためのDuSSS(Dual Semantic similarity-Supervised VLM)を提案する。
論文 参考訳(メタデータ) (2024-12-17T02:47:00Z) - Learn "No" to Say "Yes" Better: Improving Vision-Language Models via Negations [43.484570564890866]
既存の視覚言語モデル(VLM)は、テキスト記述を単位として扱い、個々の概念をプロンプトで混乱させる。
CC-Negは,228,246のイメージ,真のキャプション,それに対応する否定的なキャプションを含むデータセットである。
提案するCoN-CLIPフレームワークであるCLIPの対照的な損失に対する修正とともにCC-Negを用いることで,否定の理解が向上した。
論文 参考訳(メタデータ) (2024-03-29T17:33:42Z) - EqCo: Equivalent Rules for Self-supervised Contrastive Learning [81.45848885547754]
本稿では,InfoNCEをベースとしたコントラスト学習フレームワークにおいて,負のサンプル数と無関係に自己教師型学習を実現する手法を提案する。
InfoMaxの原理に着想を得て、負のペアの数に応じて、対照的な損失のマージン項を適応的にスケールする必要があることを指摘する。
論文 参考訳(メタデータ) (2020-10-05T11:39:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。