論文の概要: Data or Language Supervision: What Makes CLIP Better than DINO?
- arxiv url: http://arxiv.org/abs/2510.11835v1
- Date: Mon, 13 Oct 2025 18:34:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.063924
- Title: Data or Language Supervision: What Makes CLIP Better than DINO?
- Title(参考訳): データか言語か - CLIPがDINOより優れている理由
- Authors: Yiming Liu, Yuhui Zhang, Dhruba Ghosh, Ludwig Schmidt, Serena Yeung-Levy,
- Abstract要約: CLIPは高レベルのセマンティクスをキャプチャしますが、DINOは色やスタイルといった低レベルの機能に対してより応答性があります。
ビジョン言語モデルに統合されると、CLIPはテキスト集約的なタスクで優れ、DINOはビジョン中心のタスクで若干優れています。
- 参考スコア(独自算出の注目度): 50.59472280781008
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: CLIP outperforms self-supervised models like DINO as vision encoders for vision-language models (VLMs), but it remains unclear whether this advantage stems from CLIP's language supervision or its much larger training data. To disentangle these factors, we pre-train CLIP and DINO under controlled settings -- using the same architecture, dataset, and training configuration -- achieving similar ImageNet accuracy. Embedding analysis shows that CLIP captures high-level semantics (e.g., object categories, text), while DINO is more responsive to low-level features like colors and styles. When integrated into VLMs and evaluated on 20 VQA benchmarks, CLIP excels at text-intensive tasks, while DINO slightly outperforms on vision-centric ones. Variants of language supervision (e.g., sigmoid loss, pre-trained language encoders) yield limited gains. Our findings provide scientific insights into vision encoder design and its impact on VLM performance.
- Abstract(参考訳): CLIPは、視覚言語モデル(VLM)のビジョンエンコーダとしてDINOのような自己教師型モデルよりも優れているが、この利点がCLIPの言語監督や、より大規模なトレーニングデータに由来するかどうかは不明だ。
これらの要因を解消するために、コントロールされた設定 -- 同じアーキテクチャ、データセット、トレーニング設定 -- の下でCLIPとDINOを事前トレーニングして、同様のImageNet精度を実現しています。
埋め込み分析は、CLIPが高レベルのセマンティクス(オブジェクトカテゴリ、テキストなど)をキャプチャすることを示している。
VLMに統合され、20のVQAベンチマークで評価されると、CLIPはテキスト集約的なタスクで優れ、DINOはビジョン中心のタスクで若干優れています。
言語監督(例えば、シグモイド損失、事前訓練された言語エンコーダ)の変数は、限られた利得を得る。
本研究は,視覚エンコーダの設計とそのVLM性能への影響に関する科学的知見を提供する。
関連論文リスト
- Scaling Language-Free Visual Representation Learning [62.31591054289958]
Visual Self-Supervised Learning (SSL) は現在、VQA (Visual Question Answering) のようなマルチモーダル環境で、コントラスト言語-画像事前学習 (CLIP) を過小評価している。
このマルチモーダルギャップは、視覚的なSSLとCLIPモデルが異なるデータでトレーニングされているにもかかわらず、言語監督によって導入されたセマンティクスに起因することが多い。
本稿では、同じMetaCLIPデータ上で、ビジュアルSSLとCLIPモデルの両方をトレーニングし、視覚エンコーダの多様なテストベッドとしてVQAを活用することにより、この問題を考察する。
論文 参考訳(メタデータ) (2025-04-01T17:59:15Z) - DINOv2 Meets Text: A Unified Framework for Image- and Pixel-Level Vision-Language Alignment [20.953645420787527]
計算コストのごく一部でCLIPライクなモデルをトレーニングする。
ゼロショット分類とオープンボキャブラリセマンティックセマンティックセグメンテーションの最先端結果を得る。
論文 参考訳(メタデータ) (2024-12-20T20:46:48Z) - Exploring How Generative MLLMs Perceive More Than CLIP with the Same Vision Encoder [18.91969873367244]
MLLM(Generative Multimodal Large Language Models)はCLIPよりも精度が高いことを示す。
本研究は,VLMのアーキテクチャ選択の重要性を強調し,CLIP型コントラストVLMの性能向上に向けた方向性を提案する。
論文 参考訳(メタデータ) (2024-11-07T21:39:51Z) - Unveiling Encoder-Free Vision-Language Models [62.52803514667452]
既存の視覚言語モデル (VLM) は主に視覚的特徴を抽出するために視覚エンコーダに依存しており、視覚言語タスクには大きな言語モデル (LLM) が続く。
エンコーダベースモデルとエンコーダフリーモデルとのギャップを橋渡しし、純粋なVLMに対するシンプルで効果的なトレーニングレシピを示す。
EVEはエンコーダなしの視覚言語モデルで、効率的にトレーニングと転送ができる。
論文 参考訳(メタデータ) (2024-06-17T17:59:44Z) - CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language
Representation Alignment [146.3128011522151]
本稿では,CLIP,すなわちCLIP-ViPに基づいて,ビデオプロキシ機構を備えたOmniクロスモーダル学習手法を提案する。
提案手法は,ビデオテキスト検索におけるCLIPの性能を大きなマージンで向上させる。
MSR-VTT, DiDeMo, LSMDC, ActivityNet など,様々なデータセット上でのSOTA結果も得られた。
論文 参考訳(メタデータ) (2022-09-14T05:47:02Z) - Democratizing Contrastive Language-Image Pre-training: A CLIP Benchmark
of Data, Model, and Supervision [26.13829720290035]
Contrastive Language-Image Pretraining (CLIP) は、言語監督から視覚モデルを学ぶための新しいパラダイムとして登場した。
私たちはCLIPとその変異体を評価し、分析し、ベンチマークする最初の試みであるCLIP-benchmarkを提案する。
論文 参考訳(メタデータ) (2022-03-11T08:41:00Z) - SLIP: Self-supervision meets Language-Image Pre-training [79.53764315471543]
自己指導型学習が視覚表現学習における言語指導の活用に役立つかどうかを考察する。
自己教師付き学習とCLIP事前学習を組み合わせたマルチタスク学習フレームワークSLIPを紹介する。
SLIPは、自己監督や言語監督よりも優れたパフォーマンスを享受しています。
論文 参考訳(メタデータ) (2021-12-23T18:07:13Z) - How Much Can CLIP Benefit Vision-and-Language Tasks? [121.46042421728016]
CLIP (Contrastive Language- Image Pre-training) は大量の画像キャプチャーペアに基づいて訓練されており、様々な視覚タスクにおいて強力なゼロショット能力を示している。
多様なV&Lタスクの競合的あるいはより良い結果を得るとともに、ビジュアル質問応答、ビジュアルエンタテインメント、V&Lナビゲーションタスクに関する最新の結果を確立する。
論文 参考訳(メタデータ) (2021-07-13T20:48:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。