論文の概要: A Lightweight Library for Energy-Based Joint-Embedding Predictive Architectures
- arxiv url: http://arxiv.org/abs/2602.03604v1
- Date: Tue, 03 Feb 2026 14:56:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.522659
- Title: A Lightweight Library for Energy-Based Joint-Embedding Predictive Architectures
- Title(参考訳): エネルギーをベースとした合同予測型アーキテクチャのための軽量ライブラリ
- Authors: Basile Terver, Randall Balestriero, Megi Dervishi, David Fan, Quentin Garrido, Tushar Nagarajan, Koustuv Sinha, Wancong Zhang, Mike Rabbat, Yann LeCun, Amir Bar,
- Abstract要約: JEPA(Joint-Embedding Predictive Architectures)を用いた表現と世界モデルを学習するためのオープンソースのライブラリであるEB-JEPAを提案する。
JEPAsは、ピクセル空間ではなく表現空間で予測することを学び、生成モデリングの落とし穴を避ける。
これらの表現がどのように行動条件付き世界モデルを駆動し、Two Roomsナビゲーションタスクで97%の計画成功率を達成するかを示す。
- 参考スコア(独自算出の注目度): 58.26804959656713
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present EB-JEPA, an open-source library for learning representations and world models using Joint-Embedding Predictive Architectures (JEPAs). JEPAs learn to predict in representation space rather than pixel space, avoiding the pitfalls of generative modeling while capturing semantically meaningful features suitable for downstream tasks. Our library provides modular, self-contained implementations that illustrate how representation learning techniques developed for image-level self-supervised learning can transfer to video, where temporal dynamics add complexity, and ultimately to action-conditioned world models, where the model must additionally learn to predict the effects of control inputs. Each example is designed for single-GPU training within a few hours, making energy-based self-supervised learning accessible for research and education. We provide ablations of JEA components on CIFAR-10. Probing these representations yields 91% accuracy, indicating that the model learns useful features. Extending to video, we include a multi-step prediction example on Moving MNIST that demonstrates how the same principles scale to temporal modeling. Finally, we show how these representations can drive action-conditioned world models, achieving a 97% planning success rate on the Two Rooms navigation task. Comprehensive ablations reveal the critical importance of each regularization component for preventing representation collapse. Code is available at https://github.com/facebookresearch/eb_jepa.
- Abstract(参考訳): 本稿では,JEPA(Joint-Embedding Predictive Architectures)を用いた表現と世界モデルを学習するためのオープンソースのライブラリであるEB-JEPAを紹介する。
JEPAsは、ピクセル空間ではなく表現空間で予測することを学び、生成モデリングの落とし穴を回避し、下流タスクに適した意味的に意味のある特徴をキャプチャする。
我々のライブラリは、画像レベルの自己教師型学習のために開発された表現学習技術が、時間的ダイナミクスによって複雑さが増し、最終的にアクション条件付き世界モデルに移行し、制御入力の効果を予測するために、モデルが追加で学習しなければならない、モジュラーで自己完結した実装を提供する。
それぞれのサンプルは、数時間以内にシングルGPUトレーニング用に設計されており、エネルギーベースの自己教師型学習を研究や教育に利用できるようにする。
CIFAR-10 上で JEA コンポーネントのアブリケーションを提供する。
これらの表現を求めると91%の精度が得られ、モデルが有用な特徴を学習することを示す。
ビデオに拡張することで、同じ原則が時間的モデリングにどのようにスケールするかを示す、移動MNISTの多段階予測例を含む。
最後に、これらの表現がどのように行動条件付き世界モデルを駆動し、二室ナビゲーションタスクにおいて97%の計画成功率を達成するかを示す。
包括的アブレーションは、各正規化コンポーネントが表現の崩壊を防ぐために重要であることを示す。
コードはhttps://github.com/facebookresearch/eb_jepa.comから入手できる。
関連論文リスト
- DICEPTION: A Generalist Diffusion Model for Visual Perceptual Tasks [61.16389024252561]
計算資源と限られた訓練データとの制約下で複数のタスクに対処できる頑健な一般認識モデルを構築した。
我々は、何十億もの画像に事前訓練されたテキスト・画像拡散モデルを活用し、ビジュアル・ジェネラリスト・モデルであるDICEPTIONの導入に成功した。
DICEPTIONは、SOTAシングルタスクスペシャリストモデルに匹敵するパフォーマンスを達成しつつ、様々な知覚タスクに効果的に取り組むことを示す。
論文 参考訳(メタデータ) (2025-02-24T13:51:06Z) - ACT-JEPA: Novel Joint-Embedding Predictive Architecture for Efficient Policy Representation Learning [90.41852663775086]
ACT-JEPAは模倣学習と自己教師型学習を統合する新しいアーキテクチャである。
我々はアクションシーケンスと抽象的な観察シーケンスを予測するポリシーを訓練する。
実験の結果,ACT-JEPAは時間環境の動的学習によって表現の質を向上させることがわかった。
論文 参考訳(メタデータ) (2025-01-24T16:41:41Z) - SOLD: Slot Object-Centric Latent Dynamics Models for Relational Manipulation Learning from Pixels [16.020835290802548]
Slot-Attention for Object-centric Latent Dynamicsは、新しいモデルに基づく強化学習アルゴリズムである。
画素入力から教師なしの方法でオブジェクト中心のダイナミックスモデルを学習する。
構造化潜在空間は、モデル解釈可能性を改善するだけでなく、振る舞いモデルが推論する価値のある入力空間も提供することを実証する。
論文 参考訳(メタデータ) (2024-10-11T14:03:31Z) - Efficient Exploration and Discriminative World Model Learning with an Object-Centric Abstraction [19.59151245929067]
エージェントにオブジェクト中心のマッピング(アイテムとその属性のセットを記述する)を与えることで、より効率的な学習が可能になるかどうかを検討する。
この問題は、ピクセルへの高レベルの状態抽象化でアイテムをモデル化し、プリミティブアクションへの高レベルの時間抽象化で属性を変更することで、階層的に最もよく解決されている。
我々は,識別的世界モデルを学ぶ完全モデルに基づくアルゴリズムを提案し,数に基づく本質的な報酬のみを用いて効率的に探索し,その後に発見された(抽象的な)状態に到達する計画を立てる。
論文 参考訳(メタデータ) (2024-08-21T17:59:31Z) - Learning and Leveraging World Models in Visual Representation Learning [34.81177885432796]
JEPA(Joint-Embedding Predictive Architecture)は,世界モデルを活用することで学ぶ,有望な自己教師型アプローチとして登場した。
我々は,マスク付き画像モデリングを超越したアプローチであるイメージワールドモデルを導入し,潜在空間におけるグローバルな測光変換の効果を予測する。
論文 参考訳(メタデータ) (2024-03-01T13:05:38Z) - Early Action Recognition with Action Prototypes [62.826125870298306]
本稿では,各クラスに対するフルアクションのプロトタイプ表現を学習する新しいモデルを提案する。
映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。
その後、デコーダは、最終クラスの予測のために、すべてのクリップからオンラインのファッション機能として集約される。
論文 参考訳(メタデータ) (2023-12-11T18:31:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。