論文の概要: SpaceVLM: Sub-Space Modeling of Negation in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2511.12331v1
- Date: Sat, 15 Nov 2025 19:18:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.896597
- Title: SpaceVLM: Sub-Space Modeling of Negation in Vision-Language Models
- Title(参考訳): SpaceVLM:ビジョンランゲージモデルにおける否定のサブスペースモデリング
- Authors: Sepehr Kazemi Ranjbar, Kumail Alhamoud, Marzyeh Ghassemi,
- Abstract要約: 視覚言語モデルの埋め込み空間は意味的に一貫した部分空間に分割できることを示す。
単一点ではなく結合埋め込み空間における部分空間として否定をモデル化する学習自由フレームワークを提案する。
提案手法は,従来手法よりも平均約30%の否定的理解を向上する。
- 参考スコア(独自算出の注目度): 17.194017001016135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) struggle with negation. Given a prompt like "retrieve (or generate) a street scene without pedestrians," they often fail to respect the "not." Existing methods address this limitation by fine-tuning on large negation datasets, but such retraining often compromises the model's zero-shot performance on affirmative prompts. We show that the embedding space of VLMs, such as CLIP, can be divided into semantically consistent subspaces. Based on this property, we propose a training-free framework that models negation as a subspace in the joint embedding space rather than a single point (Figure 1). To find the matching image for a caption such as "A but not N," we construct two spherical caps around the embeddings of A and N, and we score images by the central direction of the region that is close to A and far from N. Across retrieval, MCQ, and text-to-image tasks, our method improves negation understanding by about 30% on average over prior methods. It closes the gap between affirmative and negated prompts while preserving the zero-shot performance that fine-tuned models fail to maintain. Code will be released upon publication.
- Abstract(参考訳): ビジョン・ランゲージ・モデル(VLM)は否定に苦しむ。
歩行者なしでストリートシーンを検索(あるいは生成)する」といったプロンプトを与えられた場合、彼らはしばしば「ノー」を尊重しない。
既存の方法は、大規模な否定データセットを微調整することで、この制限に対処するが、そのような再トレーニングは、肯定的なプロンプトでモデルがゼロショットのパフォーマンスを損なうことが多い。
ここでは,CLIPのようなVLMの埋め込み空間を意味的に一貫した部分空間に分割できることを示す。
この性質に基づいて,単一点ではなく結合埋め込み空間内の部分空間として否定をモデル化する学習自由フレームワークを提案する(第1図)。
A と N の埋め込みの周囲に2つの球状キャップを配置し,A に近い領域と N に近い領域の中央方向で画像を生成する。
これは肯定的なプロンプトと否定的なプロンプトのギャップを埋めると同時に、微調整されたモデルが維持できないゼロショットのパフォーマンスを保っている。
コードは出版時に公開される。
関連論文リスト
- What "Not" to Detect: Negation-Aware VLMs via Structured Reasoning and Token Merging [42.41372222021938]
最先端のビジョン言語モデル(VLM)は否定を理解する上で重大な失敗を経験し、しばしば肯定バイアスと呼ばれる。
CoVANDは,システムチェーン(CoT)とVQAベースのパイプラインで構築されたデータセットで,高品質なインスタンス基底型否定データを生成する。
第二に,肯定バイアスのアーキテクチャ的原因に直接対処する新しいテキストトークンマージモジュールNegToMeを提案する。
論文 参考訳(メタデータ) (2025-10-15T07:36:38Z) - Diffusion Models with Adaptive Negative Sampling Without External Resources [54.84368884047812]
ANSWERは、CFGをサポートするあらゆるモデルに適用可能な、トレーニング不要の技法であり、負のプロンプトを明示することなく、イメージ概念の負のグラウンド化を可能にする。
実験により、既存のDMにANSWERを追加することは、複数のベンチマークでベースラインよりも優れており、他の方法よりも人間の方が2倍多いことが示されている。
論文 参考訳(メタデータ) (2025-08-05T00:45:54Z) - Negation-Aware Test-Time Adaptation for Vision-Language Models [26.043679706381646]
視覚言語モデル(VLM)における実用的だが触覚の少ない問題について検討する。
多くの現実世界のアプリケーションは、偽物や存在しないものを明確に識別するためにモデルを必要とする。
本研究では,推論中の分布関連パラメータを効率的に調整するNegation-Aware Test-Time Adaptation (NEAT)法を提案する。
論文 参考訳(メタデータ) (2025-07-25T08:25:48Z) - Vision-Language Models Do Not Understand Negation [50.27667000027403]
NegBenchは18のタスクバリエーションと79ドルのサンプルに対する否定的理解を評価するために設計されたベンチマークである。
提案手法は, 否定的クエリに対するリコールが10%増加し, 否定的キャプションを用いた複数質問に対する精度が28%向上することを示す。
論文 参考訳(メタデータ) (2025-01-16T09:55:42Z) - SeqZero: Few-shot Compositional Semantic Parsing with Sequential Prompts
and Zero-shot Models [57.29358388475983]
近年の研究では、事前訓練された言語モデルと標準発話を併用する有望な結果が示されている。
本稿では,SeqZeroという構文解析手法を提案する。
特に、SeqZeroは、提案した制約付き再スケーリングを備えたアンサンブルによって、両方のモデルのメリットを明らかにします。
論文 参考訳(メタデータ) (2022-05-15T21:13:15Z) - Debiased Contrastive Learning of Unsupervised Sentence Representations [88.58117410398759]
コントラスト学習は、事前訓練された言語モデル(PLM)を改善し、高品質な文表現を導き出すのに有効である。
以前の作業は、主にランダムにトレーニングデータからバッチ内陰性またはサンプルを採用する。
我々はこれらの不適切な負の影響を軽減するための新しいフレームワーク textbfDCLR を提案する。
論文 参考訳(メタデータ) (2022-05-02T05:07:43Z) - Unsupervised Deep Learning Meets Chan-Vese Model [77.24463525356566]
本稿では,Chan-Vese(CV)モデルとディープニューラルネットワークを統合した教師なしのイメージセグメンテーション手法を提案する。
私たちの基本的な考え方は、イメージを潜伏空間にマッピングするディープニューラルネットワークを適用して、画像空間における断片的な定数仮定の違反を軽減することです。
論文 参考訳(メタデータ) (2022-04-14T13:23:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。