論文の概要: DMT-JEPA: Discriminative Masked Targets for Joint-Embedding Predictive Architecture
- arxiv url: http://arxiv.org/abs/2405.17995v1
- Date: Tue, 28 May 2024 09:28:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 19:18:23.839895
- Title: DMT-JEPA: Discriminative Masked Targets for Joint-Embedding Predictive Architecture
- Title(参考訳): DMT-JEPA: 統合埋め込み予測アーキテクチャのための差別的マスケッドターゲット
- Authors: Shentong Mo, Sukmin Yun,
- Abstract要約: 我々はJEPAに根ざした新しいマスク付きモデリング対象であるDMT-JEPAを紹介する。
我々は、セマンティックに類似した隣接パッチのセットを、マスクされたパッチのターゲットとみなす。
DMT-JEPAは強力な差別力を示し、下流の様々なタスクに利益をもたらす。
- 参考スコア(独自算出の注目度): 18.578689440216774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The joint-embedding predictive architecture (JEPA) recently has shown impressive results in extracting visual representations from unlabeled imagery under a masking strategy. However, we reveal its disadvantages, notably its insufficient understanding of local semantics. This deficiency originates from masked modeling in the embedding space, resulting in a reduction of discriminative power and can even lead to the neglect of critical local semantics. To bridge this gap, we introduce DMT-JEPA, a novel masked modeling objective rooted in JEPA, specifically designed to generate discriminative latent targets from neighboring information. Our key idea is simple: we consider a set of semantically similar neighboring patches as a target of a masked patch. To be specific, the proposed DMT-JEPA (a) computes feature similarities between each masked patch and its corresponding neighboring patches to select patches having semantically meaningful relations, and (b) employs lightweight cross-attention heads to aggregate features of neighboring patches as the masked targets. Consequently, DMT-JEPA demonstrates strong discriminative power, offering benefits across a diverse spectrum of downstream tasks. Through extensive experiments, we demonstrate our effectiveness across various visual benchmarks, including ImageNet-1K image classification, ADE20K semantic segmentation, and COCO object detection tasks. Code is available at: \url{https://github.com/DMTJEPA/DMTJEPA}.
- Abstract(参考訳): JEPA(Joint-embedding predictive Architecture)は、最近、マスク戦略の下でラベルのない画像から視覚的表現を抽出する際、顕著な結果を示した。
しかし、その欠点、特に局所的な意味論の理解が不十分であることを明らかにする。
この欠損は、埋め込み空間におけるマスク付きモデリングに起因し、識別力の低下を招き、批判的な局所的意味論を無視することさえできる。
このギャップを埋めるために,JEPAに根ざした新しいマスク付きモデリング対象であるDMT-JEPAを導入する。
我々は、セマンティックに類似した隣接パッチのセットを、マスクされたパッチのターゲットとみなす。
具体的には、DMT-JEPAを提案する。
(a)各マスキングパッチとその隣接するパッチの類似性を計算し、意味論的意味を持つパッチを選択する。
b) マスク対象として隣接するパッチの特徴を集約するために,軽量なクロスアテンションヘッドを用いる。
その結果、DMT-JEPAは強力な差別力を示し、下流の様々なタスクに利益をもたらす。
広範囲な実験を通じて、ImageNet-1K画像分類、ADE20Kセマンティックセグメンテーション、COCOオブジェクト検出タスクなど、様々な視覚的ベンチマークにおける有効性を示す。
コードは: \url{https://github.com/DMTJEPA/DMTJEPA}で入手できる。
関連論文リスト
- Enhancing JEPAs with Spatial Conditioning: Robust and Efficient Representation Learning [7.083341587100975]
Image-based Joint-Embedding Predictive Architecture (IJEPA)は、Masked Autoencoder (MAE)に代わる魅力的な代替手段を提供する。
IJEPAは表現を駆動し、入力空間ではなく潜在領域で予測することで有用な意味情報をキャプチャする。
我々の"条件付き"エンコーダは、いくつかの画像分類ベンチマークデータセットのパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2024-10-14T17:46:24Z) - How JEPA Avoids Noisy Features: The Implicit Bias of Deep Linear Self Distillation Networks [14.338754598043968]
データ表現の自己教師型学習には2つの競合パラダイムが存在する。
JEPA(Joint Embedding Predictive Architecture)は、意味的に類似した入力が互いに予測可能な表現に符号化されるアーキテクチャのクラスである。
論文 参考訳(メタデータ) (2024-07-03T19:43:12Z) - Continual-MAE: Adaptive Distribution Masked Autoencoders for Continual Test-Time Adaptation [49.827306773992376]
連続的テスト時間適応(CTTA)は、ソース事前学習モデルから目標分布の連続的な変化に移行するために提案される。
提案手法は,CTTAタスクの分類とセグメンテーションの両方において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-12-19T15:34:52Z) - Adaptive Face Recognition Using Adversarial Information Network [57.29464116557734]
顔認識モデルは、トレーニングデータがテストデータと異なる場合、しばしば退化する。
本稿では,新たな敵情報ネットワーク(AIN)を提案する。
論文 参考訳(メタデータ) (2023-05-23T02:14:11Z) - Masked Collaborative Contrast for Weakly Supervised Semantic
Segmentation [22.74105261883464]
Masked Collaborative Contrast (MCC) は、弱教師付きセマンティックセグメンテーションにおける意味領域を強調する。
MCCは暗黙のイメージモデリングと対照的な学習から着想を得て、セマンティック領域に向けてキーを誘導する新しいフレームワークを考案した。
論文 参考訳(メタデータ) (2023-05-15T09:46:28Z) - MIC: Masked Image Consistency for Context-Enhanced Domain Adaptation [104.40114562948428]
教師なしドメイン適応(UDA)では、ソースデータ(例えば、合成)に基づいて訓練されたモデルは、ターゲットアノテーションにアクセスすることなく、ターゲットデータ(例えば、現実世界)に適応する。
本研究では,対象領域の空間的コンテキスト関係を学習し,UDAを向上するMasked Image Consistency (MIC)モジュールを提案する。
MICは、合成からリアルタイム、日夜、クリア・ツー・リバース・ウェザーUDAの様々な認識タスクにおいて、最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2022-12-02T17:29:32Z) - ADPS: Asymmetric Distillation Post-Segmentation for Image Anomaly
Detection [75.68023968735523]
知識蒸留に基づく異常検出 (KDAD) 法は, 異常領域を検出し, セグメント化するために, 教師学生のパラダイムに頼っている。
非対称蒸留ポストセグメンテーション(ADPS)と呼ばれる革新的なアプローチを提案する。
我々のADPSは、教師-学生ネットワークの入力と同じイメージの異なる形態の非対称蒸留パラダイムを採用している。
ADPSは,MVTec ADとKolektorSDD2データセットで平均精度(AP)を9%,20%向上させることを示した。
論文 参考訳(メタデータ) (2022-10-19T12:04:47Z) - Beyond the Prototype: Divide-and-conquer Proxies for Few-shot
Segmentation [63.910211095033596]
少ないショットのセグメンテーションは、少数の濃密なラベル付けされたサンプルのみを与えられた、目に見えないクラスオブジェクトをセグメンテーションすることを目的としている。
分割・分散の精神において, 単純かつ多目的な枠組みを提案する。
提案手法は、DCP(disvision-and-conquer proxies)と呼ばれるもので、適切な信頼性のある情報の開発を可能にする。
論文 参考訳(メタデータ) (2022-04-21T06:21:14Z) - Semi-Supervised Domain Adaptation with Prototypical Alignment and
Consistency Learning [86.6929930921905]
本稿では,いくつかの対象サンプルがラベル付けされていれば,ドメインシフトに対処するのにどの程度役立つか検討する。
ランドマークの可能性を最大限に追求するために、ランドマークから各クラスのターゲットプロトタイプを計算するプロトタイプアライメント(PA)モジュールを組み込んでいます。
具体的には,ラベル付き画像に深刻な摂動を生じさせ,PAを非自明にし,モデル一般化性を促進する。
論文 参考訳(メタデータ) (2021-04-19T08:46:08Z) - Adapt Everywhere: Unsupervised Adaptation of Point-Clouds and Entropy
Minimisation for Multi-modal Cardiac Image Segmentation [10.417009344120917]
マルチモーダル心臓画像分割のための新しいUDA法を提案する。
提案手法は、逆学習に基づいて、異なる空間におけるソースとターゲットドメイン間のネットワーク特徴を適応する。
本手法はannotated source domainからunannotated target domainへの適応により2つの心データセットで検証した。
論文 参考訳(メタデータ) (2021-03-15T08:59:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。