論文の概要: seq-JEPA: Autoregressive Predictive Learning of Invariant-Equivariant World Models
- arxiv url: http://arxiv.org/abs/2505.03176v2
- Date: Thu, 22 May 2025 06:37:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 14:49:22.318163
- Title: seq-JEPA: Autoregressive Predictive Learning of Invariant-Equivariant World Models
- Title(参考訳): seq-JEPA:不変同変世界モデルの自己回帰予測学習
- Authors: Hafez Ghaemi, Eilif Muller, Shahab Bakhtiari,
- Abstract要約: 本稿では,協調埋め込み型予測アーキテクチャにアーキテクチャバイアスを導入する世界モデリングフレームワークSeq-JEPAを提案する。
Seq-JEPA は2つのアーキテクチャ的に分離された表現を同時に学習する。
行動間の経路統合や眼球運動間の予測学習など、本質的に一連の観察を必要とするタスクに優れています。
- 参考スコア(独自算出の注目度): 1.474723404975345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current self-supervised algorithms commonly rely on transformations such as data augmentation and masking to learn visual representations. This is achieved by enforcing invariance or equivariance with respect to these transformations after encoding two views of an image. This dominant two-view paradigm often limits the flexibility of learned representations for downstream adaptation by creating performance trade-offs between high-level invariance-demanding tasks such as image classification and more fine-grained equivariance-related tasks. In this work, we proposes \emph{seq-JEPA}, a world modeling framework that introduces architectural inductive biases into joint-embedding predictive architectures to resolve this trade-off. Without relying on dual equivariance predictors or loss terms, seq-JEPA simultaneously learns two architecturally segregated representations: one equivariant to specified transformations and another invariant to them. To do so, our model processes short sequences of different views (observations) of inputs. Each encoded view is concatenated with an embedding of the relative transformation (action) that produces the next observation in the sequence. These view-action pairs are passed through a transformer encoder that outputs an aggregate representation. A predictor head then conditions this aggregate representation on the upcoming action to predict the representation of the next observation. Empirically, seq-JEPA demonstrates strong performance on both equivariant and invariant benchmarks without sacrificing one for the other. Furthermore, it excels at tasks that inherently require aggregating a sequence of observations, such as path integration across actions and predictive learning across eye movements.
- Abstract(参考訳): 現在の自己教師型アルゴリズムは一般的に、視覚表現を学ぶためにデータ拡張やマスキングのような変換に依存している。
これは、画像の2つのビューを符号化した後、これらの変換に対して不変または等式を強制することによって達成される。
この支配的な2視点パラダイムは、画像分類やよりきめ細かな等分散関連タスクのような高レベルの不変性要求タスクのパフォーマンストレードオフを作成することによって、下流適応のための学習表現の柔軟性を制限することが多い。
本研究では、このトレードオフを解決するために、協調埋め込み予測アーキテクチャにアーキテクチャ誘導バイアスを導入する世界モデリングフレームワークである「emph{seq-JEPA}」を提案する。
二重同値予測や損失項に頼らず、Seq-JEPAは2つのアーキテクチャ的に分離された表現を同時に学習する: 1つは特定の変換に不変であり、もう1つはそれらに不変である。
そのために、我々のモデルは入力の異なるビュー(観測)の短いシーケンスを処理する。
各エンコードされたビューは、シーケンス内の次の観察を生成する相対変換(アクション)の埋め込みと連結される。
これらのビューアクションペアは、集約表現を出力する変換器エンコーダを介して渡される。
次に、予測器ヘッドは、次の観測の表現を予測するために、次の動作に関するこの集合表現を条件とする。
実証的に、Seq-JEPAは、等変ベンチマークと不変ベンチマークの両方で、一方を犠牲にすることなく、強い性能を示す。
さらに、行動間の経路統合や眼球運動間の予測学習など、本質的に一連の観察を必要とするタスクを抽出する。
関連論文リスト
- Self-Supervised Learning based on Transformed Image Reconstruction for Equivariance-Coherent Feature Representation [3.7622885602373626]
コンピュータビジョンの特徴を学習するための自己教師付き学習手法を提案する。
このシステムは、これまで見つからなかった変換を行ったイメージを再構成することで、変換を独立に学習する。
私たちのアプローチは、リッチな現実的なコンピュータビジョンの下流タスクで強く機能し、ほぼ常にすべてのベースラインを改善しています。
論文 参考訳(メタデータ) (2025-03-24T15:01:50Z) - Self-supervised Transformation Learning for Equivariant Representations [26.207358743969277]
教師なし表現学習は、様々な機械学習タスクを大幅に進歩させた。
本稿では,変換ラベルを画像ペアから派生した変換表現に置き換える自己教師あり変換学習(STL)を提案する。
さまざまな分類タスクと検出タスクにまたがって、アプローチの有効性を実証し、11のベンチマークのうち7つで既存の手法より優れています。
論文 参考訳(メタデータ) (2025-01-15T10:54:21Z) - In-Context Symmetries: Self-Supervised Learning through Contextual World Models [41.61360016455319]
我々は、文脈に注意を払って、異なる変換に不変あるいは同変に適応できる一般的な表現を学ぶことを提案する。
提案するアルゴリズムであるContextual Self-Supervised Learning (ContextSSL)は,すべての変換に等しくなることを学習する。
論文 参考訳(メタデータ) (2024-05-28T14:03:52Z) - EulerFormer: Sequential User Behavior Modeling with Complex Vector Attention [88.45459681677369]
複素ベクトル注意を持つ新しい変圧器変圧器(EulerFormer)を提案する。
意味的差と位置的差の両方を定式化するための統一的な理論的枠組みを提供する。
意味的変動に対してより堅牢であり、原理上はより上述の理論的性質を持つ。
論文 参考訳(メタデータ) (2024-03-26T14:18:43Z) - CIPER: Combining Invariant and Equivariant Representations Using
Contrastive and Predictive Learning [6.117084972237769]
比較不変性と予測同変表現学習(CIPER)を導入する。
CIPERは、1つの共有エンコーダとエンコーダの上の2つの異なる出力ヘッドを用いて、不変および同変学習目的を含む。
我々は静的な画像タスクと時間拡張された画像データセットについて評価する。
論文 参考訳(メタデータ) (2023-02-05T07:50:46Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z) - Frame Averaging for Invariant and Equivariant Network Design [50.87023773850824]
フレーム平均化(FA)は、既知の(バックボーン)アーキテクチャを新しい対称性タイプに不変あるいは同変に適応するためのフレームワークである。
FAモデルが最大表現力を持つことを示す。
我々は,新しいユニバーサルグラフニューラルネット(GNN),ユニバーサルユークリッド運動不変点クラウドネットワーク,およびユークリッド運動不変メッセージパッシング(MP)GNNを提案する。
論文 参考訳(メタデータ) (2021-10-07T11:05:23Z) - Parameter Decoupling Strategy for Semi-supervised 3D Left Atrium
Segmentation [0.0]
本稿では,パラメータ分離戦略に基づく半教師付きセグメンテーションモデルを提案する。
提案手法は,Atrial Challengeデータセット上での最先端の半教師付き手法と競合する結果を得た。
論文 参考訳(メタデータ) (2021-09-20T14:51:42Z) - Topographic VAEs learn Equivariant Capsules [84.33745072274942]
本稿では, 地理的に整理された潜伏変数を用いた深部生成モデルを効率的に学習するための新しい手法であるTopographic VAEを紹介する。
このようなモデルでは,MNIST上での桁数クラス,幅,スタイルなどの健全な特徴に応じて,その活性化を組織化することが実際に学べることが示される。
我々は、既存の群同変ニューラルネットワークの能力を拡張して、複素変換に近似した同値性を示す。
論文 参考訳(メタデータ) (2021-09-03T09:25:57Z) - Analogous to Evolutionary Algorithm: Designing a Unified Sequence Model [58.17021225930069]
実演的進化アルゴリズム(EA)と類似した視覚変換器の合理性について説明する。
我々は、より効率的なEATモデルを提案し、様々なタスクに柔軟に対処するタスク関連ヘッドを設計する。
近年のビジョントランスに比べて,イメージネット分類作業における最先端の成果が得られている。
論文 参考訳(メタデータ) (2021-05-31T16:20:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。