論文の概要: DIP: Unsupervised Dense In-Context Post-training of Visual Representations
- arxiv url: http://arxiv.org/abs/2506.18463v1
- Date: Mon, 23 Jun 2025 10:01:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.92761
- Title: DIP: Unsupervised Dense In-Context Post-training of Visual Representations
- Title(参考訳): DIP: 視覚表現の教師なしインテクスト後トレーニング
- Authors: Sophia Sirko-Galouchenko, Spyros Gidaris, Antonin Vobecky, Andrei Bursuc, Nicolas Thome,
- Abstract要約: DIPは、コンテキスト内シーン理解のための大規模事前学習型視覚エンコーダにおける濃密な画像表現を強化するために設計された、教師なしのポストトレーニング手法である。
擬似的なコンテキスト内タスクを通じて密表現を学習することにより、さまざまな下流現実世界のコンテキスト内シーン理解タスクに対して強いパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 26.829876173212583
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce DIP, a novel unsupervised post-training method designed to enhance dense image representations in large-scale pretrained vision encoders for in-context scene understanding. Unlike prior approaches that rely on complex self-distillation architectures, our method trains the vision encoder using pseudo-tasks that explicitly simulate downstream in-context scenarios, inspired by meta-learning principles. To enable post-training on unlabeled data, we propose an automatic mechanism for generating in-context tasks that combines a pretrained diffusion model and the vision encoder itself. DIP is simple, unsupervised, and computationally efficient, requiring less than 9 hours on a single A100 GPU. By learning dense representations through pseudo in-context tasks, it achieves strong performance across a wide variety of downstream real-world in-context scene understanding tasks. It outperforms both the initial vision encoder and prior methods, offering a practical and effective solution for improving dense representations. Code available here: https://github.com/sirkosophia/DIP
- Abstract(参考訳): 本稿では,大規模事前学習型視覚エンコーダにおける濃密な画像表現を強化し,コンテキスト内シーン理解のための教師なしポストトレーニング手法であるDIPを紹介する。
複雑な自己蒸留アーキテクチャに依存する従来の手法とは異なり、我々の手法はメタ学習の原則にインスパイアされた、下流のコンテキストシナリオを明示的にシミュレートする擬似タスクを使用して視覚エンコーダを訓練する。
本研究では,事前学習した拡散モデルとビジョンエンコーダ自体を組み合わせたコンテキスト内タスクの自動生成機構を提案する。
DIPは単純で、教師なし、計算効率が良く、1つのA100 GPUで9時間もかからない。
擬似的なコンテキスト内タスクを通じて密表現を学習することにより、さまざまな下流現実世界のコンテキスト内シーン理解タスクに対して強いパフォーマンスを実現する。
初期ビジョンエンコーダと先行手法の両方を上回り、密度表現を改善するための実用的で効果的なソリューションを提供する。
コード:https://github.com/sirkosophia/DIP
関連論文リスト
- Perception Encoder: The best visual embeddings are not at the output of the network [70.86738083862099]
本稿では、単純な視覚言語学習によって訓練された画像と映像の理解のための視覚エンコーダであるPerception (PE)を紹介する。
対照的な視覚言語学習だけでは、これらの下流タスクに強力な汎用的な埋め込みを実現できることが分かっています。
PEモデル群は,多種多様なタスクにおいて,クラス内で最高の結果が得られる。
論文 参考訳(メタデータ) (2025-04-17T17:59:57Z) - Underlying Semantic Diffusion for Effective and Efficient In-Context Learning [113.4003355229632]
Underlying Semantic Diffusion (US-Diffusion)は、セマンティック学習、計算効率、文脈内学習能力を高める拡張拡散モデルである。
本稿では,フィードバック信号を利用したフィードバック支援学習(FAL)フレームワークを提案する。
また,高雑音レベルの時間ステップで高密度サンプリングを行うためのプラグイン・アンド・プレイの効率的なサンプリング戦略(ESS)を提案する。
論文 参考訳(メタデータ) (2025-03-06T03:06:22Z) - Value Explicit Pretraining for Learning Transferable Representations [11.069853883599102]
本稿では,伝達強化学習のための一般化可能な表現を学習する手法を提案する。
我々は、目的条件付き表現のためのエンコーダを学習することで、前回学習したタスクと同様の目的を共有する新しいタスクを学ぶ。
現実的なナビゲーションシミュレータとAtariベンチマークを用いて実験したところ,本手法により生成された事前学習エンコーダは,現在のSoTA事前学習法より優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-19T17:12:35Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - Multi-Level Contrastive Learning for Dense Prediction Task [59.591755258395594]
本稿では,高密度予測タスクのための領域レベルの特徴表現を効率よく学習するための,MCL(Multi-Level Contrastive Learning for Dense Prediction Task)を提案する。
本手法は, 局所化, スケールの整合性, 認識の3つの要因に動機付けられている。
提案手法は,様々なデータセットにおける最近の最先端の手法よりも有意なマージンを有する。
論文 参考訳(メタデータ) (2023-04-04T17:59:04Z) - Vision Learners Meet Web Image-Text Pairs [32.36188289972377]
本研究では,ノイズの多いWebソースと画像テキストのペアデータに対する自己教師付き事前学習について検討する。
マスク付きトレーニング目標を用いたシングルモーダルトレーニングや,画像テキストコンストラシティブトレーニングを用いたマルチモーダルトレーニングなど,さまざまな手法を比較した。
我々は、スケーラブルなWebソース画像テキストデータから学習する新しいビジュアル表現事前学習手法MUlti-modal Generator(MUG)を提案する。
論文 参考訳(メタデータ) (2023-01-17T18:53:24Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。