論文の概要: A Mixed Diet Makes DINO An Omnivorous Vision Encoder
- arxiv url: http://arxiv.org/abs/2602.24181v1
- Date: Fri, 27 Feb 2026 17:03:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.529578
- Title: A Mixed Diet Makes DINO An Omnivorous Vision Encoder
- Title(参考訳): ダイノの視覚エンコーダー「Mixed Diet」
- Authors: Rishabh Kabra, Maks Ovsjanikov, Drew A. Hudson, Ye Xia, Skanda Koppula, Andre Araujo, Joao Carreira, Niloy J. Mitra,
- Abstract要約: DINOv2のような事前訓練された視覚エンコーダは、単調なタスクで例外的な性能を示した。
我々は,モダリティに依存しない特徴空間を学習する新しいフレームワークであるOmnivorous Visionを提案する。
このアプローチは、元の基盤モデルの非ネイティブなセマンティクスを維持しながら、堅牢なクロスモーダル理解を可能にする。
- 参考スコア(独自算出の注目度): 47.339404281319474
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Pre-trained vision encoders like DINOv2 have demonstrated exceptional performance on unimodal tasks. However, we observe that their feature representations are poorly aligned across different modalities. For instance, the feature embedding for an RGB image and its corresponding depth map of the same scene exhibit a cosine similarity that is nearly identical to that of two random, unrelated images. To address this, we propose the Omnivorous Vision Encoder, a novel framework that learns a modality-agnostic feature space. We train the encoder with a dual objective: first, to maximize the feature alignment between different modalities of the same scene; and second, a distillation objective that anchors the learned representations to the output of a fully frozen teacher such as DINOv2. The resulting student encoder becomes "omnivorous" by producing a consistent, powerful embedding for a given scene, regardless of the input modality (RGB, Depth, Segmentation, etc.). This approach enables robust cross-modal understanding while retaining the discriminative semantics of the original foundation model.
- Abstract(参考訳): DINOv2のような事前訓練された視覚エンコーダは、単調なタスクで例外的な性能を示した。
しかし、それらの特徴表現は、異なるモダリティに対して不整合である。
例えば、RGB画像とその対応するシーンの深度マップに埋め込まれた特徴は、2つのランダムな無関係な画像とほぼ同一のコサイン類似性を示す。
そこで我々は,モダリティに依存しない特徴空間を学習する新しいフレームワークであるOmnivorous Vision Encoderを提案する。
エンコーダを2つの目的で訓練する。第1に,同一シーンの異なるモード間の特徴アライメントを最大化するために,第2に,学習した表現をDINOv2のような完全に凍結された教師の出力に固定する蒸留目標を提案する。
結果として得られる学生エンコーダは、入力モダリティ(RGB、深さ、セグメンテーションなど)に関係なく、所定のシーンに対して一貫した強力な埋め込みを生成することで「雑用」となる。
このアプローチは、元の基盤モデルの識別的意味を保ちながら、堅牢なクロスモーダル理解を可能にする。
関連論文リスト
- VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction [83.50898344094153]
VQRAEは、イメージ理解のための連続的セマンティック機能と、統一トークン化器内での視覚生成のためのトークンを生成する。
デザインは、多モーダル理解、離散トークンの能力を維持するために、無視可能な意味情報を可能にする。
VQRAEは、視覚的理解、生成、再構築のベンチマークで競合性能を示す。
論文 参考訳(メタデータ) (2025-11-28T17:26:34Z) - MambaEye: A Size-Agnostic Visual Encoder with Causal Sequential Processing [14.888533532729864]
MambaEyeは、低複雑さと因果プロセスベースの純粋なMamba2バックボーンを活用する、新しい因果シーケンシャルエンコーダである。
従来のMambaベースの視覚エンコーダとは異なり、我々の厳密な一方向アプローチは、状態空間モデルの本質的な因果性を保存する。
MambaEyeは、幅広い画像解像度、特にImageNet-1K分類タスクの15362$のような高解像度で、堅牢なパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-11-25T06:18:18Z) - DINOv2 Driven Gait Representation Learning for Video-Based Visible-Infrared Person Re-identification [30.593882551803855]
Visible-Infrared person re-identification (VVI-ID) は、視界と赤外線を横断する同じ歩行者をモダリティから回収することを目的としている。
これらの課題に対処するために、DINOv2の豊富な視覚的優位性を活用して、外観に相補的な歩行特徴を学習するゲイト表現学習フレームワークを提案する。
具体的にはセマンティック・アウェア・シルエット・ゲイトラーニング(GL)モデルを提案する。
論文 参考訳(メタデータ) (2025-11-06T11:21:13Z) - Perception Encoder: The best visual embeddings are not at the output of the network [70.86738083862099]
本稿では、単純な視覚言語学習によって訓練された画像と映像の理解のための視覚エンコーダであるPerception (PE)を紹介する。
対照的な視覚言語学習だけでは、これらの下流タスクに強力な汎用的な埋め込みを実現できることが分かっています。
PEモデル群は,多種多様なタスクにおいて,クラス内で最高の結果が得られる。
論文 参考訳(メタデータ) (2025-04-17T17:59:57Z) - Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - Triple-View Knowledge Distillation for Semi-Supervised Semantic
Segmentation [54.23510028456082]
半教師付きセマンティックセグメンテーションのためのトリプルビュー知識蒸留フレームワークTriKDを提案する。
このフレームワークは、トリプルビューエンコーダとデュアル周波数デコーダを含む。
論文 参考訳(メタデータ) (2023-09-22T01:02:21Z) - 3D-Aware Encoding for Style-based Neural Radiance Fields [50.118687869198716]
我々は、入力画像をNeRFジェネレータの潜時空間に投影する反転関数を学び、潜時符号に基づいて原画像の新しいビューを合成する。
2次元生成モデルのGANインバージョンと比較して、NeRFインバージョンは、1)入力画像の同一性を維持するだけでなく、2)生成した新規なビューにおいて3D一貫性を確保する必要がある。
スタイルベースNeRFインバージョンのための2段階エンコーダを提案する。
論文 参考訳(メタデータ) (2022-11-12T06:14:12Z) - Robust Double-Encoder Network for RGB-D Panoptic Segmentation [31.807572107839576]
パノプティックセグメンテーションは、ピクセルワイズセマンティックラベルをインスタンスIDと共に計算することでシーンの解釈を提供する。
本稿では、2つのエンコーダを通してRGBと深さを別々に処理する新しいエンコーダデコーダニューラルネットワークを提案する。
提案手法は,他の汎視的セグメンテーション手法と比較して,優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2022-10-06T11:46:37Z) - LoopITR: Combining Dual and Cross Encoder Architectures for Image-Text
Retrieval [117.15862403330121]
共同学習のためのネットワークにおいて,デュアルエンコーダとクロスエンコーダを組み合わせたLoopITRを提案する。
具体的には、二重エンコーダをクロスエンコーダに強陰性を与え、より識別性の高いクロスエンコーダを用いてその予測を二重エンコーダに戻す。
論文 参考訳(メタデータ) (2022-03-10T16:41:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。