論文の概要: Non-Contrastive Vision-Language Learning with Predictive Embedding Alignment
- arxiv url: http://arxiv.org/abs/2602.00653v1
- Date: Sat, 31 Jan 2026 10:57:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.317181
- Title: Non-Contrastive Vision-Language Learning with Predictive Embedding Alignment
- Title(参考訳): 予測埋め込みアライメントを用いた非コントラスト型視覚言語学習
- Authors: Lukas Kuhn, Giuseppe Serra, Florian Buettner,
- Abstract要約: 分布正規化を伴う共同埋め込み予測に基づくNOn-contrastive Vision-Language AlignmentフレームワークであるNOVAを紹介する。
テキストエンコーダとしてCeriorBERTとMIMIC-CXRでスクラッチからトレーニングしたビジョントランスフォーマーを用いて,ゼロショット胸部X線分類におけるNOVAの評価を行った。
本研究は,非コントラスト的視覚言語事前学習が,コントラスト的手法よりもシンプルで,より安定的で,より効果的な代替手段を提供することを示す。
- 参考スコア(独自算出の注目度): 12.336161969869567
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models have transformed multimodal representation learning, yet dominant contrastive approaches like CLIP require large batch sizes, careful negative sampling, and extensive hyperparameter tuning. We introduce NOVA, a NOn-contrastive Vision-language Alignment framework based on joint embedding prediction with distributional regularization. NOVA aligns visual representations to a frozen, domain-specific text encoder by predicting text embeddings from augmented image views, while enforcing an isotropic Gaussian structure via Sketched Isotropic Gaussian Regularization (SIGReg). This eliminates the need for negative sampling, momentum encoders, or stop-gradients, reducing the training objective to a single hyperparameter. We evaluate NOVA on zeroshot chest X-ray classification using ClinicalBERT as the text encoder and Vision Transformers trained from scratch on MIMIC-CXR. On zero-shot classification across three benchmark datasets, NOVA outperforms multiple standard baselines while exhibiting substantially more consistent training runs. Our results demonstrate that non-contrastive vision-language pretraining offers a simpler, more stable, and more effective alternative to contrastive methods.
- Abstract(参考訳): 視覚言語モデルはマルチモーダル表現学習を変換しているが、CLIPのような対照的なアプローチでは大きなバッチサイズ、慎重なネガティブサンプリング、広範囲なハイパーパラメータチューニングが必要となる。
分布正規化を伴う共同埋め込み予測に基づくNOn-contrastive Vision-Language AlignmentフレームワークであるNOVAを紹介する。
NOVAは、拡張イメージビューからのテキスト埋め込みを予測し、Sketched Isotropic Gaussian Regularization (SIGReg)を介して等方的ガウス構造を強制することにより、凍結したドメイン固有のテキストエンコーダに視覚表現を整合させる。
これにより、負のサンプリング、運動量エンコーダ、または停止段階の必要性を排除し、トレーニング目標を1つのハイパーパラメータに短縮する。
テキストエンコーダとしてCeriorBERTとMIMIC-CXRでスクラッチからトレーニングしたビジョントランスフォーマーを用いて,ゼロショット胸部X線分類におけるNOVAの評価を行った。
3つのベンチマークデータセットのゼロショット分類では、NOVAは、より一貫性のあるトレーニング実行を示しながら、複数の標準ベースラインを上回っている。
本研究は,非コントラスト的視覚言語事前学習が,コントラスト的手法よりもシンプルで,より安定的で,より効果的な代替手段を提供することを示す。
関連論文リスト
- Prioritizing Image-Related Tokens Enhances Vision-Language Pre-Training [78.60953331455565]
PRIORは、NTP損失の差分重み付けによって画像関連トークンを優先する、視覚言語による事前学習手法である。
NTPと比較した場合, 平均相対的改善率は19%, 8%であった。
論文 参考訳(メタデータ) (2025-05-13T21:27:52Z) - Adaptive Prompt Tuning: Vision Guided Prompt Tuning with Cross-Attention for Fine-Grained Few-Shot Learning [5.242869847419834]
コンピュータビジョンにおける微妙な分類は、限られたデータで微妙な分類を区別する必要があるため、大きな課題となる。
本稿では,適応的なプロンプトチューニングにより,コントラスト言語画像事前学習モデルを強化する手法を提案する。
論文 参考訳(メタデータ) (2024-12-19T08:51:01Z) - Fine-Grained Verifiers: Preference Modeling as Next-token Prediction in Vision-Language Alignment [57.0121616203175]
本研究では,視覚言語アライメントを改善するための細粒度検証器として,モデル自身のビジュアルエンコーダを利用する新たな自己アライメント手法であるFiSAOを提案する。
ビジョンエンコーダからのトークンレベルのフィードバックを活用することで、FiSAOは視覚言語アライメントを大幅に改善する。
論文 参考訳(メタデータ) (2024-10-18T03:34:32Z) - Understanding Prompt Tuning for V-L Models Through the Lens of Neural
Collapse [47.89674843370092]
本稿では,テキストと画像表現でプロンプトを学習する新しい手法であるNPTを提案する。
NPTは、言語モダリティの崩壊と多モダリティの同型という2つの正規化用語を取り入れており、他のプロンプトチューニング手法と互換性がある。
論文 参考訳(メタデータ) (2023-06-28T06:37:03Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - A Simplified Framework for Contrastive Learning for Node Representations [2.277447144331876]
グラフにノードを埋め込むために,グラフニューラルネットワークと組み合わせてコントラスト学習を展開できる可能性を検討する。
組込み行列の単純なカラムワイド後処理により, 組込み結果の品質とトレーニング時間を大幅に改善できることを示す。
この修正により、下流の分類タスクは最大1.5%改善され、8つの異なるベンチマークのうち6つで既存の最先端のアプローチに勝っている。
論文 参考訳(メタデータ) (2023-05-01T02:04:36Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。