論文の概要: Density-Aware Translation of Spurious Correlations in Zero-Shot VLMs
- arxiv url: http://arxiv.org/abs/2606.01710v1
- Date: Mon, 01 Jun 2026 05:23:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.387404
- Title: Density-Aware Translation of Spurious Correlations in Zero-Shot VLMs
- Title(参考訳): ゼロショットVLMにおけるスプリアス相関の密度認識変換
- Authors: Afsaneh Hasanebrahimi, Hanxun Huang, Christopher Leckie, Sarah Erfani,
- Abstract要約: 本稿では,グループ参照集合から派生した局所的幾何学的密度項を用いて画像テキスト類似度スコアを洗練する密度認識翻訳を提案する。
提案手法は,CLIP埋め込みがモダリティギャップを呈し,特徴空間の異方性貝殻に横たわる現象を特徴とする。
我々は,密接な意味的整合性を維持しつつ,拡散領域における過信度スコアを抑えながら,埋め込み密度に基づいて類似性を再スケールするために,相対測度を用いる。
- 参考スコア(独自算出の注目度): 10.892846618107392
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language models (VLMs), such as CLIP, achieve powerful zero-shot classification. However, their predictions remain sensitive to spurious correlations, where contextual cues dominate over semantic content. Earlier solutions typically rely on fine-tuning or prompt engineering, which either undermine the advantages of pre-trained models or are prone to hallucination. In this work, we propose Density-Aware Translation (DAT) that refines image-text similarity scores using a local geometric density term derived from group reference sets. Our approach is motivated by the phenomenon that CLIP embeddings exhibit a modality gap and lie on an anisotropic shell in the feature space: common patterns cluster near the mean, while rare patterns are pushed outward. This geometry creates uneven alignment, where spurious correlations are amplified while semantically meaningful but rare cues are marginalised. To address this, we employ a relative measure to rescale similarities based on embedding density, suppressing overconfident scores in diffuse regions while preserving dense, semantically consistent matches. Experimental results on benchmark datasets demonstrate consistent improvements in worst-group and average accuracy, highlighting density-aware translation as a simple and effective calibration mechanism for reliable zero-shot classification using multimodal models.
- Abstract(参考訳): ビジョンランゲージモデル(VLM)は、CLIPのような強力なゼロショット分類を実現する。
しかし、それらの予測は、文脈的手がかりが意味的内容よりも支配的な、刺激的な相関に敏感なままである。
初期のソリューションは通常、微調整や迅速なエンジニアリングに依存しており、事前訓練されたモデルの利点を損なうか、幻覚を起こす傾向がある。
本研究では,グループ参照集合から得られる局所的幾何学的密度項を用いて,画像テキストの類似度スコアを改良する密度認識翻訳(DAT)を提案する。
提案手法は,CLIPの埋め込みがモダリティギャップを呈し,特徴空間における異方性貝殻上に横たわる現象を動機としている。
この幾何学は不均一なアライメントを生み出し、刺激的な相関が増幅され、意味論的に意味を持つが稀な手がかりが辺境化される。
そこで我々は, 密接な意味的整合性を維持しつつ, 拡散領域における過信度スコアを抑えながら, 埋め込み密度に基づいて類似性を再スケールするために, 相対測度を用いる。
ベンチマークデータセットを用いた実験結果から,マルチモーダルモデルを用いた信頼性ゼロショット分類のための簡易かつ効果的なキャリブレーション機構として,密度認識翻訳を重要視した,最悪のグループと平均精度の一貫性の向上が示された。
関連論文リスト
- Density-Guided Robust Counterfactual Explanations on Tabular Data under Model Multiplicity [20.899371081590342]
対実的説明(CE)は行動可能な会話には不可欠であるが、その信頼性は低密度領域でしばしば損なわれる。
我々は、高信頼データ多様体に固執することにより、堅牢なCEを構築する生成フレームワークであるtextitDensityFlowを提案する。
論文 参考訳(メタデータ) (2026-05-29T06:36:33Z) - Provably Learning Diffusion Models under the Manifold Hypothesis: Collapse and Refine [60.669081685261965]
拡散モデルは、顕著な品質で高次元データを生成する。
彼らのトレーニングがいかに効率的にスコア関数を学習するかは理論的には説明がつかないままである。
我々はこの原理をScore-induced Latent Diffusion (SiLD)として定式化する。
論文 参考訳(メタデータ) (2026-05-16T16:51:10Z) - Provable Sparse Inversion and Token Relabel Enhanced One-shot Federated Learning with ViTs [77.42033827176806]
ワンショットフェデレートラーニング(One-Shot Federated Learning)は、単一のコミュニケーションラウンドでグローバルモデルを学ぶ中央サーバが、有望なパラダイムとして登場したものだ。
本稿では,合成画像の全パッチをフル活用してグローバルモデルをトレーニングする,新しいフェデレーションモデルインバージョンとトークンリラベルフレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-11T15:49:08Z) - Bridging the Semantic Gap for Categorical Data Clustering via Large Language Models [64.58262227709842]
ARISE(Attention-weighted Representation with Integrated Semantic Embeddings)が紹介される。
正確なクラスタリングのためにカテゴリデータのメトリック空間を補完するセマンティックアウェア表現を構築する。
8つのベンチマークデータセットの実験では、7つの代表的なデータセットよりも一貫した改善が示されている。
論文 参考訳(メタデータ) (2026-01-03T11:37:46Z) - Latent Sculpting for Zero-Shot Generalization: A Manifold Learning Approach to Out-of-Distribution Anomaly Detection [2.8547732086436306]
教師付きディープラーニングの基本的限界は「一般化崩壊」である
階層型2段階表現学習フレームワークであるLatent Sculptingを提案する。
我々は「浸潤」のシナリオについて88.89%の検知率を報告した。
論文 参考訳(メタデータ) (2025-12-19T11:37:02Z) - Improving Semantic Uncertainty Quantification in LVLMs with Semantic Gaussian Processes [60.75226150503949]
本稿では,解答埋め込みの幾何学的構造を解析し,意味的不確実性を定量化するベイズ的枠組みを提案する。
S GPUは、生成した回答を密接なセマンティック空間にマッピングし、セマンティック埋め込みのグラム行列を計算し、セマンティック構成を要約する。
我々は,SGPUがモデルとモダリティをまたいで転送されることを示し,そのスペクトル表現が意味的不確実性の一般的なパターンを捉えていることを示す。
論文 参考訳(メタデータ) (2025-12-16T08:15:24Z) - Explicit Density Approximation for Neural Implicit Samplers Using a Bernstein-Based Convex Divergence [6.110760886913874]
暗黙的な生成モデルをトレーニングするための新しい可能性のない目的である二重ISLを導入する。
これらの理論上の優位性は実践的なものへと変換される。
論文 参考訳(メタデータ) (2025-06-05T07:21:54Z) - Neighbor Does Matter: Density-Aware Contrastive Learning for Medical Semi-supervised Segmentation [17.69408044083565]
我々は,特徴空間の幾何から,監督情報を直接抽出できることを論じる。
密度に基づくクラスタリング仮説に着想を得て,特徴密度を用いて特徴クラスタ内のスパース領域を特定することを提案する。
本手法は, ラベル付きおよびラベルなしデータサンプルを用いて, 特徴密度を推定し, スパース領域の同定を行う。
論文 参考訳(メタデータ) (2024-12-27T13:57:57Z) - Towards the Uncharted: Density-Descending Feature Perturbation for Semi-supervised Semantic Segmentation [51.66997548477913]
本稿では,DDFP(Dedentity-Descending Feature Perturbation)という特徴レベルの一貫性学習フレームワークを提案する。
半教師付き学習における低密度分離仮定にインスパイアされた私たちの重要な洞察は、特徴密度はセグメンテーション分類器が探索する最も有望な方向の光を放つことができるということである。
提案したDFFPは、機能レベルの摂動に関する他の設計よりも優れており、Pascal VOCとCityscapesのデータセット上でのアートパフォーマンスの状態を示している。
論文 参考訳(メタデータ) (2024-03-11T06:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。