論文の概要: Enhancing JEPAs with Spatial Conditioning: Robust and Efficient Representation Learning
- arxiv url: http://arxiv.org/abs/2410.10773v1
- Date: Mon, 14 Oct 2024 17:46:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-29 19:44:46.621867
- Title: Enhancing JEPAs with Spatial Conditioning: Robust and Efficient Representation Learning
- Title(参考訳): 空間条件付きJEPAの強化:ロバストで効率的な表現学習
- Authors: Etai Littwin, Vimal Thilak, Anand Gopalakrishnan,
- Abstract要約: Image-based Joint-Embedding Predictive Architecture (IJEPA)は、Masked Autoencoder (MAE)に代わる魅力的な代替手段を提供する。
IJEPAは表現を駆動し、入力空間ではなく潜在領域で予測することで有用な意味情報をキャプチャする。
我々の"条件付き"エンコーダは、いくつかの画像分類ベンチマークデータセットのパフォーマンス向上を示す。
- 参考スコア(独自算出の注目度): 7.083341587100975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-based Joint-Embedding Predictive Architecture (IJEPA) offers an attractive alternative to Masked Autoencoder (MAE) for representation learning using the Masked Image Modeling framework. IJEPA drives representations to capture useful semantic information by predicting in latent rather than input space. However, IJEPA relies on carefully designed context and target windows to avoid representational collapse. The encoder modules in IJEPA cannot adaptively modulate the type of predicted and/or target features based on the feasibility of the masked prediction task as they are not given sufficient information of both context and targets. Based on the intuition that in natural images, information has a strong spatial bias with spatially local regions being highly predictive of one another compared to distant ones. We condition the target encoder and context encoder modules in IJEPA with positions of context and target windows respectively. Our "conditional" encoders show performance gains on several image classification benchmark datasets, improved robustness to context window size and sample-efficiency during pretraining.
- Abstract(参考訳): Image-based Joint-Embedding Predictive Architecture (IJEPA)は、Masked Image Modelingフレームワークを使用した表現学習のためのMasked Autoencoder(MAE)の魅力的な代替手段を提供する。
IJEPAは表現を駆動し、入力空間ではなく潜在領域で予測することで有用な意味情報をキャプチャする。
しかし、IJEPAは表現的崩壊を避けるために、慎重に設計されたコンテキストとターゲットウィンドウに依存している。
IJEPAのエンコーダモジュールは、コンテキストとターゲットの両方の十分な情報が与えられていないため、マスク付き予測タスクの実現可能性に基づいて予測および/またはターゲット特徴のタイプを適応的に調整することはできない。
自然画像では、情報は空間的偏見が強く、空間的局所的な領域は、遠方の領域に比べて高い予測力を持つ。
IJEPAでは,ターゲットエンコーダとコンテキストエンコーダモジュールをそれぞれ,コンテキスト位置とターゲットウィンドウの位置で条件付けする。
我々の"条件付き"エンコーダは、いくつかの画像分類ベンチマークデータセットのパフォーマンス向上、コンテキストウィンドウサイズへの堅牢性の改善、事前トレーニング時のサンプル効率を示す。
関連論文リスト
- AgMTR: Agent Mining Transformer for Few-shot Segmentation in Remote Sensing [12.91626624625134]
Few-shot (FSS) は、関心のあるオブジェクトを少数のラベル付きサンプル(つまりサポートイメージ)でクエリイメージに分割することを目的としている。
以前のスキームでは、サポートクエリのピクセルペア間の類似性を利用して、ピクセルレベルのセマンティックな相関を構築していた。
極端にクラス内変異や乱雑な背景を持つリモートセンシングシナリオでは、そのようなピクセルレベルの相関が大きなミスマッチを引き起こす可能性がある。
本稿では,エージェントレベルの意味的相関を構築するために,一組の局所認識エージェントを適応的にマイニングする新しいエージェントマイニングトランス (AgMTR) を提案する。
論文 参考訳(メタデータ) (2024-09-26T01:12:01Z) - OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。
OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。
最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文 参考訳(メタデータ) (2024-09-14T07:44:22Z) - Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - How JEPA Avoids Noisy Features: The Implicit Bias of Deep Linear Self Distillation Networks [14.338754598043968]
データ表現の自己教師型学習には2つの競合パラダイムが存在する。
JEPA(Joint Embedding Predictive Architecture)は、意味的に類似した入力が互いに予測可能な表現に符号化されるアーキテクチャのクラスである。
論文 参考訳(メタデータ) (2024-07-03T19:43:12Z) - DMT-JEPA: Discriminative Masked Targets for Joint-Embedding Predictive Architecture [18.578689440216774]
我々はJEPAに根ざした新しいマスク付きモデリング対象であるDMT-JEPAを紹介する。
我々は、セマンティックに類似した隣接パッチのセットを、マスクされたパッチのターゲットとみなす。
DMT-JEPAは強力な差別力を示し、下流の様々なタスクに利益をもたらす。
論文 参考訳(メタデータ) (2024-05-28T09:28:52Z) - A-JEPA: Joint-Embedding Predictive Architecture Can Listen [35.308323314848735]
本稿では,音声スペクトルから自己教師付き学習を行うシンプルな拡張手法であるA-JEPAについて紹介する。
A-JEPAは、コンテキストエンコーダによるカリキュラムマスキング戦略で可視音声スペクトログラムパッチをエンコードし、よく設計された場所でサンプリングされた領域の表現を予測する。
論文 参考訳(メタデータ) (2023-11-27T13:53:53Z) - Interpretable Spectral Variational AutoEncoder (ISVAE) for time series
clustering [48.0650332513417]
可変オートエンコーダ(VAE)の出力にフィルタバンク(FB)の解釈可能なボトルネックを組み込んだ新しいモデルを導入する。
このアレンジメントは、入力信号の最も情報性の高いセグメントに参加するためにVAEを補完する。
VAEをこのFBに故意に拘束することにより、識別可能で分離可能で次元が縮小した符号化の開発を促進する。
論文 参考訳(メタデータ) (2023-10-18T13:06:05Z) - LAW-Diffusion: Complex Scene Generation by Diffusion with Layouts [107.11267074981905]
LAW拡散(LAW-Diffusion)と呼ばれる意味制御可能なレイアウト・AWare拡散モデルを提案する。
LAW拡散は、特にコヒーレントな対象関係を持つ最先端の生成性能をもたらすことを示す。
論文 参考訳(メタデータ) (2023-08-13T08:06:18Z) - Multitask AET with Orthogonal Tangent Regularity for Dark Object
Detection [84.52197307286681]
暗黒環境下でのオブジェクト検出を強化するために,新しいマルチタスク自動符号化変換(MAET)モデルを提案する。
自己超越的な方法で、MAETは、現実的な照明劣化変換を符号化して復号することで、本質的な視覚構造を学習する。
我々は,合成および実世界のデータセットを用いて最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2022-05-06T16:27:14Z) - Momentum Contrastive Autoencoder: Using Contrastive Learning for Latent
Space Distribution Matching in WAE [51.09507030387935]
Wasserstein autoencoder (WAE) は、2つの分布が一致することは、このAEの潜在空間が予め指定された事前分布と一致するという制約の下で、単純なオートエンコーダ(AE)損失を最小限にすることと同値であることを示している。
本稿では,この問題を解決する手段として,自己指導型表現学習に有効であることを示すコントラスト学習フレームワークを提案する。
WAEの損失を最適化するために、対照的な学習フレームワークを使用することで、WAEの一般的なアルゴリズムと比較して、より高速に収束し、より安定した最適化が達成できることを示す。
論文 参考訳(メタデータ) (2021-10-19T22:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。