論文の概要: Simplifying DINO via Coding Rate Regularization
- arxiv url: http://arxiv.org/abs/2502.10385v1
- Date: Fri, 14 Feb 2025 18:58:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 14:47:30.338224
- Title: Simplifying DINO via Coding Rate Regularization
- Title(参考訳): 符号化速度規則化によるDINOの簡易化
- Authors: Ziyang Wu, Jingyuan Zhang, Druv Pai, XuDong Wang, Chandan Singh, Jianwei Yang, Jianfeng Gao, Yi Ma,
- Abstract要約: DINOとDINOv2は、大規模にラベル付けされていない画像データから表現を学ぶために広く使われている2つのモデルファミリーである。
この研究は、設計原則をシンプルにすることで、ディープラーニングの実証的な実践を改善する可能性を強調します。
- 参考スコア(独自算出の注目度): 74.88963795406733
- License:
- Abstract: DINO and DINOv2 are two model families being widely used to learn representations from unlabeled imagery data at large scales. Their learned representations often enable state-of-the-art performance for downstream tasks, such as image classification and segmentation. However, they employ many empirically motivated design choices and their training pipelines are highly complex and unstable -- many hyperparameters need to be carefully tuned to ensure that the representations do not collapse -- which poses considerable difficulty to improving them or adapting them to new domains. In this work, we posit that we can remove most such-motivated idiosyncrasies in the pre-training pipelines, and only need to add an explicit coding rate term in the loss function to avoid collapse of the representations. As a result, we obtain highly simplified variants of the DINO and DINOv2 which we call SimDINO and SimDINOv2, respectively. Remarkably, these simplified models are more robust to different design choices, such as network architecture and hyperparameters, and they learn even higher-quality representations, measured by performance on downstream tasks, offering a Pareto improvement over the corresponding DINO and DINOv2 models. This work highlights the potential of using simplifying design principles to improve the empirical practice of deep learning.
- Abstract(参考訳): DINOとDINOv2は、大規模にラベル付けされていない画像データから表現を学ぶために広く使われている2つのモデルファミリーである。
彼らの学習した表現は、しばしば、画像分類やセグメンテーションのような下流タスクの最先端のパフォーマンスを可能にする。
しかし、多くの経験的なモチベーションのある設計選択を採用しており、そのトレーニングパイプラインは非常に複雑で不安定である。多くのハイパーパラメータは、表現が崩壊しないように注意深く調整する必要がある。
本研究では、事前学習パイプラインにおいて、このようなモチベーションを持ったイディオシクスを除去できると仮定し、表現の崩壊を避けるために、損失関数に明示的な符号化率項を追加する必要があると仮定する。
その結果、DINOとDINOv2の高度に単純化された変種が得られ、SimDINOとSimDINOv2と呼ぶ。
注目すべきは、これらの単純化されたモデルは、ネットワークアーキテクチャやハイパーパラメータなどの異なる設計選択に対してより堅牢であり、ダウンストリームタスクのパフォーマンスによって測定される高品質な表現を学習し、対応するDINOとDINOv2モデルに対してパレートの改善を提供することである。
この研究は、設計原則をシンプルにすることで、ディープラーニングの実証的な実践を改善する可能性を強調します。
関連論文リスト
- Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。
本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。
我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文 参考訳(メタデータ) (2024-10-09T14:34:53Z) - Code Representation Learning At Scale [75.04686476303436]
2段階の事前学習スキームを用いて,大量のコードデータを用いてコード表現学習を行う。
まず、マスキング言語モデリングにおけるランダム性と、プログラミング言語の構造的側面の両方を活用して、エンコーダを訓練する。
そして、教師なしの方法で強陰性かつ強正に構築された対照的な学習を通して表現を強化する。
論文 参考訳(メタデータ) (2024-02-02T22:19:15Z) - Improving Long-Horizon Imitation Through Instruction Prediction [93.47416552953075]
本研究では、しばしば使われない補助的監督源である言語の使用について検討する。
近年のトランスフォーマーモデルの発展にインスパイアされたエージェントは,高レベルの抽象化で動作する時間拡張表現の学習を促す命令予測損失を持つエージェントを訓練する。
さらなる分析では、複雑な推論を必要とするタスクにおいて、命令モデリングが最も重要であり、単純な計画を必要とする環境において、より小さなゲインを提供する。
論文 参考訳(メタデータ) (2023-06-21T20:47:23Z) - Improving the Robustness of Neural Multiplication Units with Reversible
Stochasticity [2.4278445972594525]
多層パーセプトロンは、ある種の単純な算術的なタスクを学ぶのに苦労する。
特殊神経NMU(sNMU)は可逆性を適用するために提案され、そのようなオプティマの回避を奨励する。
論文 参考訳(メタデータ) (2022-11-10T14:56:37Z) - Randomized Histogram Matching: A Simple Augmentation for Unsupervised
Domain Adaptation in Overhead Imagery [3.187381965457262]
ランダム化ヒストグラムマッチング(RHM)と呼ばれる高速リアルタイム非教師付きトレーニング増強手法を提案する。
RHMは、最先端の教師なしドメイン適応アプローチと比較して、一貫して類似または優れた性能が得られる。
RHMはまた、オーバーヘッド画像に広く使われている他の可分に単純なアプローチよりも大幅に優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2021-04-28T21:59:54Z) - Dissecting Supervised Constrastive Learning [24.984074794337157]
高容量エンコーダで構成された線形マップのソフトマックススコアよりもクロスエントロピーを最小化することは、教師付き学習タスクでニューラルネットワークを訓練するための最も一般的な選択肢である。
コントラスト目的の教師付き変種を通して等しく(あるいはそれ以上)識別表現を得るために、エンコーダを直接最適化することができることを示す。
論文 参考訳(メタデータ) (2021-02-17T15:22:38Z) - Style Normalization and Restitution for DomainGeneralization and
Adaptation [88.86865069583149]
効果的なドメイン一般化モデルは、一般化および判別可能な特徴表現を学習することが期待される。
本稿では,ネットワークの高一般化と識別能力を確保するために,新しいスタイル正規化・再構成モジュール(SNR)を設計する。
論文 参考訳(メタデータ) (2021-01-03T09:01:39Z) - Recurrent Multi-view Alignment Network for Unsupervised Surface
Registration [79.72086524370819]
非厳格な登録をエンドツーエンドで学習することは、本質的に高い自由度とラベル付きトレーニングデータの欠如により困難である。
我々は、いくつかの剛性変換のポイントワイドな組み合わせで、非剛性変換を表現することを提案する。
また,投影された多視点2次元深度画像上での3次元形状の類似度を計測する可微分損失関数も導入する。
論文 参考訳(メタデータ) (2020-11-24T14:22:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。