論文の概要: Learning and Leveraging World Models in Visual Representation Learning
- arxiv url: http://arxiv.org/abs/2403.00504v1
- Date: Fri, 1 Mar 2024 13:05:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 17:27:57.772791
- Title: Learning and Leveraging World Models in Visual Representation Learning
- Title(参考訳): 視覚表現学習における世界モデルの学習と活用
- Authors: Quentin Garrido, Mahmoud Assran, Nicolas Ballas, Adrien Bardes,
Laurent Najman, Yann LeCun
- Abstract要約: JEPA(Joint-Embedding Predictive Architecture)は,世界モデルを活用することで学ぶ,有望な自己教師型アプローチとして登場した。
我々は,マスク付き画像モデリングを超越したアプローチであるイメージワールドモデルを導入し,潜在空間におけるグローバルな測光変換の効果を予測する。
- 参考スコア(独自算出の注目度): 34.81177885432796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Joint-Embedding Predictive Architecture (JEPA) has emerged as a promising
self-supervised approach that learns by leveraging a world model. While
previously limited to predicting missing parts of an input, we explore how to
generalize the JEPA prediction task to a broader set of corruptions. We
introduce Image World Models, an approach that goes beyond masked image
modeling and learns to predict the effect of global photometric transformations
in latent space. We study the recipe of learning performant IWMs and show that
it relies on three key aspects: conditioning, prediction difficulty, and
capacity. Additionally, we show that the predictive world model learned by IWM
can be adapted through finetuning to solve diverse tasks; a fine-tuned IWM
world model matches or surpasses the performance of previous self-supervised
methods. Finally, we show that learning with an IWM allows one to control the
abstraction level of the learned representations, learning invariant
representations such as contrastive methods, or equivariant representations
such as masked image modelling.
- Abstract(参考訳): JEPA(Joint-Embedding Predictive Architecture)は,世界モデルを活用することで学ぶ,有望な自己教師型アプローチとして登場した。
これまでは入力の欠落部分の予測に限られていたが、JEPA予測タスクをより広範な汚職の集合に一般化する方法を探る。
我々は,マスク付き画像モデリングを超えるアプローチであるイメージワールドモデルを導入し,潜在空間におけるグローバルな測光変換の効果を予測する。
IWMの学習方法について検討し, 条件づけ, 予測困難, キャパシティの3つの重要な側面に依存していることを示す。
さらに、IWMが学習した予測的世界モデルは、様々なタスクを解決するために微調整によって適応可能であることを示し、微調整されたIWM世界モデルは、従来の自己監督手法の性能に適合するか、超越するかを示す。
最後に、IWMを用いて学習することで、学習した表現の抽象化レベル、コントラスト法などの不変表現の学習、マスク画像モデリングのような同変表現の制御が可能になることを示す。
関連論文リスト
- From Prototypes to General Distributions: An Efficient Curriculum for Masked Image Modeling [11.634154932876719]
Masked Image Modelingは視覚表現学習のための強力な自己教師型学習パラダイムとして登場した。
本稿では,原典例からデータセットのより複雑なバリエーションまで,学習プロセスの進行を構造化する,プロトタイプ駆動型カリキュラム学習フレームワークを提案する。
本研究は, 自己指導型視覚学習において, トレーニング事例の順序を慎重に制御することが重要な役割を担っていることを示唆している。
論文 参考訳(メタデータ) (2024-11-16T03:21:06Z) - Masked Generative Priors Improve World Models Sequence Modelling Capabilities [19.700020499490137]
Masked Generative Modellingはより効率的で優れた帰納的バイアスとして登場した。
GIT-STORMは、Atari 100kベンチマークでRLタスクのパフォーマンスが大幅に向上したことを示している。
トランスフォーマーをベースとした世界モデルが初めて連続行動環境に適用し、先行研究における大きなギャップに対処する。
論文 参考訳(メタデータ) (2024-10-10T11:52:07Z) - A Probabilistic Model Behind Self-Supervised Learning [53.64989127914936]
自己教師付き学習(SSL)では、アノテートラベルなしで補助的なタスクを通じて表現が学習される。
自己教師型学習のための生成潜在変数モデルを提案する。
対照的な方法を含む識別的SSLのいくつかのファミリーは、表現に匹敵する分布を誘導することを示した。
論文 参考訳(メタデータ) (2024-02-02T13:31:17Z) - Masked Modeling for Self-supervised Representation Learning on Vision
and Beyond [69.64364187449773]
仮面モデリングは、トレーニング中に比例的にマスキングされる元のデータの一部を予測する、独特なアプローチとして現れてきた。
マスクモデリングにおけるテクニックの詳細については,多様なマスキング戦略,ターゲット回復,ネットワークアーキテクチャなどについて詳述する。
我々は、現在の手法の限界について議論し、マスクモデリング研究を進めるためのいくつかの道のりを指摘した。
論文 参考訳(メタデータ) (2023-12-31T12:03:21Z) - ReCoRe: Regularized Contrastive Representation Learning of World Model [21.29132219042405]
対照的な教師なし学習と介入不変正規化器を用いて不変特徴を学習する世界モデルを提案する。
提案手法は,現状のモデルベースおよびモデルフリーのRL法より優れ,iGibsonベンチマークで評価された分布外ナビゲーションタスクを大幅に改善する。
論文 参考訳(メタデータ) (2023-12-14T15:53:07Z) - Sequential Modeling Enables Scalable Learning for Large Vision Models [120.91839619284431]
本稿では,言語データを用いずにLVM(Large Vision Model)を学習できる新しい逐次モデリング手法を提案する。
我々は、生画像やビデオや注釈付きデータソースを表現できる共通フォーマット「視覚文」を定義した。
論文 参考訳(メタデータ) (2023-12-01T18:59:57Z) - Generalizable Imitation Learning Through Pre-Trained Representations [19.98418419179064]
我々は、リッチなDINO事前学習型Visual Transformer (ViT) パッチレベルの埋め込みを活用して、実演を通して学習する際の一般化を向上する模倣学習アルゴリズムであるBC-ViTを紹介する。
我々の学習者は、外見の特徴をセマンティックな概念にまとめ、幅広い外見のバリエーションやオブジェクトタイプにまたがる安定なキーポイントを形成することで世界を見る。
論文 参考訳(メタデータ) (2023-11-15T20:15:51Z) - Unifying (Machine) Vision via Counterfactual World Modeling [5.001446411351483]
本稿では,視覚基盤モデルを構築するためのフレームワークであるCWMを紹介する。
CWMには2つの重要なコンポーネントがあり、ファンデーションモデルの概念をビジョンに適用することを妨げる中核的な問題を解決している。
我々は,CWMが様々なタスクのために,現実世界の画像やビデオに対して高品質な読み出しを生成することを示す。
論文 参考訳(メタデータ) (2023-06-02T17:45:44Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Learning by Distillation: A Self-Supervised Learning Framework for
Optical Flow Estimation [71.76008290101214]
DistillFlowは光の流れを学ぶための知識蒸留手法である。
KITTIとSintelの両方のデータセット上で、最先端の教師なし学習性能を実現する。
我々のモデルは、KITTI 2015ベンチマークにおけるすべての単分子的手法の中で、第1位にランクされ、Sintel Finalベンチマークで発表されたすべてのメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-06-08T09:13:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。