論文の概要: seq-JEPA: Autoregressive Predictive Learning of Invariant-Equivariant World Models
- arxiv url: http://arxiv.org/abs/2505.03176v1
- Date: Tue, 06 May 2025 04:39:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.208495
- Title: seq-JEPA: Autoregressive Predictive Learning of Invariant-Equivariant World Models
- Title(参考訳): seq-JEPA:不変同変世界モデルの自己回帰予測学習
- Authors: Hafez Ghaemi, Eilif Muller, Shahab Bakhtiari,
- Abstract要約: 本稿では,協調埋め込み予測アーキテクチャに基づく世界モデリングパラダイムであるSeq-JEPAを紹介する。
等変ベンチマークや画像分類において,Seq-JEPAは,一方を犠牲にすることなく高い性能が得られることを示す。
- 参考スコア(独自算出の注目度): 1.474723404975345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current self-supervised algorithms mostly rely on transformations such as data augmentation and masking to learn visual representations. This is achieved by inducing invariance or equivariance with respect to these transformations after encoding two views of an image. This dominant two-view paradigm can limit the flexibility of learned representations for downstream adaptation by creating performance trade-offs between invariance-related tasks such as image classification and more fine-grained equivariance-related tasks. In this work, we introduce \emph{seq-JEPA}, a world modeling paradigm based on joint-embedding predictive architecture that leverages architectural inductive biases to resolve this trade-off. Without requiring an additional equivariance predictor or loss term, seq-JEPA simultaneously learns two architecturally segregated representations: one equivariant to the specified transformations and another invariant to them and suited for tasks such as classification. To do so, our model processes a short sequence of different views (observations) of an input image. Each encoded view is concatenated with embeddings corresponding to the relative transformation (action) producing the next observation in the sequence. A transformer encoder outputs an aggregate representation of this sequence, which is subsequently conditioned on the action leading to the next observation to predict its representation. Empirically, seq-JEPA achieves strong performance on equivariant benchmarks and image classification without sacrificing one for the other. Additionally, our framework excels at tasks that inherently require aggregating a sequence of observations, such as path integration across actions and predictive learning across eye movements.
- Abstract(参考訳): 現在の自己教師型アルゴリズムは、主に視覚表現を学ぶためにデータ拡張やマスキングのような変換に依存している。
これは、画像の2つのビューを符号化した後、これらの変換に対して不変または等式を誘導することによって達成される。
この支配的な2視点パラダイムは、画像分類やよりきめ細かい等分散関連タスクなどの不変タスクのパフォーマンストレードオフを作成することによって、下流適応のための学習表現の柔軟性を制限することができる。
本稿では,このトレードオフを解決するために,アーキテクチャの帰納バイアスを利用した共同埋め込み予測アーキテクチャに基づく世界モデリングパラダイムである \emph{seq-JEPA} を紹介する。
追加の等式予測器や損失項を必要とせず、Seq-JEPAは2つのアーキテクチャ的に分離された表現を同時に学習する: 1つは特定の変換に不変であり、もう1つはそれらに不変であり、分類のようなタスクに適している。
そこで本モデルは,入力画像の異なるビュー(観測)の短いシーケンスを処理する。
各エンコードされたビューは、シーケンス内の次の観察を生成する相対変換(アクション)に対応する埋め込みと連結される。
トランスエンコーダは、このシーケンスの集約表現を出力し、その後、次の観察につながるアクションに条件付けして、その表現を予測する。
実証的に、Seq-JEPAは、等変ベンチマークと画像分類において、一方を犠牲にすることなく、強い性能を達成する。
さらに,我々のフレームワークは,行動間の経路統合や眼球運動間の予測学習など,本質的に一連の観察を必要とするタスクに長けている。
関連論文リスト
- Self-Supervised Learning based on Transformed Image Reconstruction for Equivariance-Coherent Feature Representation [3.7622885602373626]
コンピュータビジョンの特徴を学習するための自己教師付き学習手法を提案する。
このシステムは、これまで見つからなかった変換を行ったイメージを再構成することで、変換を独立に学習する。
私たちのアプローチは、リッチな現実的なコンピュータビジョンの下流タスクで強く機能し、ほぼ常にすべてのベースラインを改善しています。
論文 参考訳(メタデータ) (2025-03-24T15:01:50Z) - Self-supervised Transformation Learning for Equivariant Representations [26.207358743969277]
教師なし表現学習は、様々な機械学習タスクを大幅に進歩させた。
本稿では,変換ラベルを画像ペアから派生した変換表現に置き換える自己教師あり変換学習(STL)を提案する。
さまざまな分類タスクと検出タスクにまたがって、アプローチの有効性を実証し、11のベンチマークのうち7つで既存の手法より優れています。
論文 参考訳(メタデータ) (2025-01-15T10:54:21Z) - In-Context Symmetries: Self-Supervised Learning through Contextual World Models [41.61360016455319]
我々は、文脈に注意を払って、異なる変換に不変あるいは同変に適応できる一般的な表現を学ぶことを提案する。
提案するアルゴリズムであるContextual Self-Supervised Learning (ContextSSL)は,すべての変換に等しくなることを学習する。
論文 参考訳(メタデータ) (2024-05-28T14:03:52Z) - EulerFormer: Sequential User Behavior Modeling with Complex Vector Attention [88.45459681677369]
複素ベクトル注意を持つ新しい変圧器変圧器(EulerFormer)を提案する。
意味的差と位置的差の両方を定式化するための統一的な理論的枠組みを提供する。
意味的変動に対してより堅牢であり、原理上はより上述の理論的性質を持つ。
論文 参考訳(メタデータ) (2024-03-26T14:18:43Z) - CIPER: Combining Invariant and Equivariant Representations Using
Contrastive and Predictive Learning [6.117084972237769]
比較不変性と予測同変表現学習(CIPER)を導入する。
CIPERは、1つの共有エンコーダとエンコーダの上の2つの異なる出力ヘッドを用いて、不変および同変学習目的を含む。
我々は静的な画像タスクと時間拡張された画像データセットについて評価する。
論文 参考訳(メタデータ) (2023-02-05T07:50:46Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z) - Frame Averaging for Invariant and Equivariant Network Design [50.87023773850824]
フレーム平均化(FA)は、既知の(バックボーン)アーキテクチャを新しい対称性タイプに不変あるいは同変に適応するためのフレームワークである。
FAモデルが最大表現力を持つことを示す。
我々は,新しいユニバーサルグラフニューラルネット(GNN),ユニバーサルユークリッド運動不変点クラウドネットワーク,およびユークリッド運動不変メッセージパッシング(MP)GNNを提案する。
論文 参考訳(メタデータ) (2021-10-07T11:05:23Z) - Parameter Decoupling Strategy for Semi-supervised 3D Left Atrium
Segmentation [0.0]
本稿では,パラメータ分離戦略に基づく半教師付きセグメンテーションモデルを提案する。
提案手法は,Atrial Challengeデータセット上での最先端の半教師付き手法と競合する結果を得た。
論文 参考訳(メタデータ) (2021-09-20T14:51:42Z) - Topographic VAEs learn Equivariant Capsules [84.33745072274942]
本稿では, 地理的に整理された潜伏変数を用いた深部生成モデルを効率的に学習するための新しい手法であるTopographic VAEを紹介する。
このようなモデルでは,MNIST上での桁数クラス,幅,スタイルなどの健全な特徴に応じて,その活性化を組織化することが実際に学べることが示される。
我々は、既存の群同変ニューラルネットワークの能力を拡張して、複素変換に近似した同値性を示す。
論文 参考訳(メタデータ) (2021-09-03T09:25:57Z) - Analogous to Evolutionary Algorithm: Designing a Unified Sequence Model [58.17021225930069]
実演的進化アルゴリズム(EA)と類似した視覚変換器の合理性について説明する。
我々は、より効率的なEATモデルを提案し、様々なタスクに柔軟に対処するタスク関連ヘッドを設計する。
近年のビジョントランスに比べて,イメージネット分類作業における最先端の成果が得られている。
論文 参考訳(メタデータ) (2021-05-31T16:20:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。