論文の概要: DINORANKCLIP: DINOv3 Distillation and Injection for Vision-Language Pretraining with High-Order Ranking Consistency
- arxiv url: http://arxiv.org/abs/2605.06592v1
- Date: Thu, 07 May 2026 17:19:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:12.029356
- Title: DINORANKCLIP: DINOv3 Distillation and Injection for Vision-Language Pretraining with High-Order Ranking Consistency
- Title(参考訳): DINORANKCLIP:DINOv3蒸留法と高次ランクの調整のための注入法
- Authors: Shuyang Jiang, Nan Yu, Yiming Zhang, Zenghui Ding, Zhenyu Wu,
- Abstract要約: 対照的な言語イメージのpreCLIPは2つの構造的弱点に悩まされる。
RANKCLIPは、リストワイドのPlackett-Luceランキング一貫性を失うことで、最初の問題に部分的に対処する。
DINORANKCLIPは,両者を共同で扱う事前学習フレームワークである。
- 参考スコア(独自算出の注目度): 12.06248193140353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive language-image pretraining (CLIP) suffers from two structural weaknesses: the symmetric InfoNCE loss discards the relative ordering among unmatched in-batch pairs, and global pooling collapses the visual representation into a semantic bottleneck that is poorly sensitive to fine-grained local structure. RANKCLIP partially addresses the first issue with a list-wise Plackett-Luce ranking-consistency loss, but its model is strictly first-order and inherits the second weakness untouched. We propose DINORANKCLIP, a pretraining framework that addresses both jointly. Our principal contribution is injecting a frozen DINOv3 teacher into the contrastive trunk through a dual-branch lightweight student and a multi-scale fusion module with channel-spatial attention, a self-attention refiner, and a conflict-aware gate that preserves the cross-modal alignment up to first order. Complementarily, we introduce a high-order Plackett-Luce ranking model in which the per-position utility is augmented with attention-parameterised pairwise and tuple-wise transition terms; the family contains CLIP and RANKCLIP as nested zero-order and first-order special cases, and the optimal order on every benchmark is $R^*=3$. The full empirical study -- order sweep, Fine-grained Probe on five datasets, four-node Modality-Gap analysis, six-variant Fusion ablation -- fits in 72 hours on a single eight-GPU H100 node and trains entirely on Conceptual Captions 3M. DINORANKCLIP consistently outperforms CLIP, CyCLIP, ALIP, and RANKCLIP under matched compute, with the largest relative gains on the fine-grained and out-of-distribution evaluations that most directly stress local structural reasoning.
- Abstract(参考訳): 対照的な言語イメージ事前学習(CLIP)は2つの構造的弱点に悩まされる: 対称InfoNCE損失は、マッチしないバッチのペア間の相対的な順序を破棄し、グローバルプールは視覚表現を、きめ細かい局所構造に弱いセマンティックボトルネックに分解する。
RANKCLIPは、リストワイドのPlackett-Luceランキングの一貫性を失うことで、最初の問題に部分的に対処するが、そのモデルは厳密に1次であり、第2の弱点を未修正で継承する。
DINORANKCLIPは,両者を共同で扱う事前学習フレームワークである。
我々の主な貢献は、二枝軽量の学生と、チャネル空間に注意を向けたマルチスケール融合モジュール、自己注意リファインダー、およびクロスモーダルアライメントを1次に維持するコンフリクト対応ゲートを介して、凍結したDINOv3教師をトランクに注入することである。
相補的に,Planckett-Luceランキングモデルを導入し,PlanKCLIPとCLIPとRANKCLIPをネストした0次および1次特殊ケースとして含んでおり,各ベンチマークの最適順序はR^*=3$である。
オーダスイープ,5つのデータセット上のきめ細かいプローブ,4ノードのモダリティ-ギャップ分析,6変数のFusion ablation – の完全な実証研究は,1つの8GPU H100ノードに72時間,コンセプトキャプション3Mで完全にトレーニングされる。
DINORANKCLIPは、CLIP、CyCLIP、ALIP、RANKCLIPと整合した計算において一貫して優れており、局所的な構造的推論を最も直接的に強調する細粒度および分布外評価において最大の相対的なゲインを持つ。
関連論文リスト
- Improving LLM Reasoning with Homophily-aware Structural and Semantic Text-Attributed Graph Compression [55.51959317490934]
大規模言語モデル(LLM)は、テキスト分散グラフ(TAG)理解において有望な能力を示している。
グラフは本来、構造情報や意味情報を豊富に含むものであり、それらの有効利用はLLMの推論性能の潜在的な利益を解放する可能性があると論じる。
グラフホモフィリーの活用を目的としたフレームワーク LLMs (HS2C) のホモフィリー対応構造とセマンティック圧縮を提案する。
論文 参考訳(メタデータ) (2026-01-13T03:35:18Z) - Higher-order Linear Attention [59.92962330635185]
スケールされたドット積の注意の二次コストは、自己回帰言語モデルを長いコンテキストにスケールするための中心的な障害である。
本稿では,高次線形注意(Higher-order Linear Attention, HLA)を提案する。
論文 参考訳(メタデータ) (2025-10-31T07:54:37Z) - REALIGN: Regularized Procedure Alignment with Matching Video Embeddings via Partial Gromov-Wasserstein Optimal Transport [7.952582509792969]
実世界の命令データには、しばしばバックグラウンドセグメント、繰り返しアクション、順番に示されるステップが含まれている。
正規化部分グロモフ・ワッサースタイン最適輸送(R-FPGWOT)に基づく手続き学習のための自己指導型フレームワークREALIGNを紹介する。
KOTとは対照的に、我々の定式化は部分的なアライメントスキームの下で視覚的対応と時間的関係を共同でモデル化する。
論文 参考訳(メタデータ) (2025-09-29T07:32:14Z) - S2-Attention: Hardware-Aware Context Sharding Among Attention Heads [49.1454481007861]
スパースアテンションは、コンテキスト内のトークンのサブセットに選択的に出席する。
スパース・アテンションが今日の大規模言語モデルでモデルの品質を維持することができるかどうかは不明だ。
本稿では,Sparsely-Sharded(S2) attention, a Triton library that provide kernel optimization for sparse attention for sparse attention to customizable per-head and per-context-range levels。
論文 参考訳(メタデータ) (2024-07-25T00:27:07Z) - Parameter-efficient Fine-tuning in Hyperspherical Space for Open-vocabulary Semantic Segmentation [10.502680141980642]
オープンボキャブラリセマンティックセグメンテーションは、画像中の各ピクセルに任意のテキスト記述をラベル付けしようとする。
視覚言語基盤モデル、特にCLIPは、オープン語彙能力を取得するための強力なツールとして登場した。
H-CLIPは、CLIPの総パラメータの約4%を更新するだけで、新しいSOTAオープン語彙セマンティックセマンティックセマンティクス結果を達成する。
論文 参考訳(メタデータ) (2024-05-29T07:41:34Z) - RankCLIP: Ranking-Consistent Language-Image Pretraining [7.92247304974314]
RankCLIPはCLIPの厳格な1対1マッチングフレームワークを超えて拡張された、新しい事前トレーニング手法である。
従来のペアワイズ損失をリストワイズに拡張することで、RancCLIPはアライメントプロセスを改善し、各モダリティ内および各モダリティ間のニュアンスな多対多の関係をキャプチャする。
論文 参考訳(メタデータ) (2024-04-15T00:12:27Z) - SoftCLIP: Softer Cross-modal Alignment Makes CLIP Stronger [30.758184720183106]
我々は厳密な1対1の制約を緩和し、ソフトなクロスモーダルアライメントを実現する新しいアプローチであるSoftCLIPを提案する。
特に、ImageNetゼロショット分類タスクでは、事前トレーニングデータセットとしてCC3M/CC12Mを使用して、SoftCLIPは6.8%/7.2%というトップ1の精度向上を実現している。
論文 参考訳(メタデータ) (2023-03-30T17:27:22Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - Generalized Zero-Shot Learning Via Over-Complete Distribution [79.5140590952889]
そこで本稿では,CVAE (Conditional Variational Autoencoder) を用いたOCD(Over-Complete Distribution) の生成を提案する。
フレームワークの有効性は,Zero-Shot LearningプロトコルとGeneralized Zero-Shot Learningプロトコルの両方を用いて評価する。
論文 参考訳(メタデータ) (2020-04-01T19:05:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。