論文の概要: Joint Embedding Predictive Architectures Focus on Slow Features
- arxiv url: http://arxiv.org/abs/2211.10831v1
- Date: Sun, 20 Nov 2022 00:50:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 21:54:25.434415
- Title: Joint Embedding Predictive Architectures Focus on Slow Features
- Title(参考訳): 統合埋め込み予測アーキテクチャ : スロー機能に着目して
- Authors: Vlad Sobal, Jyothir S V, Siddhartha Jalagam, Nicolas Carion, Kyunghyun
Cho, Yann LeCun
- Abstract要約: JEPA(Joint Embedding Predictive Architectures)は、再構築不要の代替手段を提供する。
我々は、VICRegとSimCLRで訓練されたJEPAのパフォーマンスを、報酬にアクセスできることなく完全にオフラインで分析する。
JEPAメソッドはステップ毎にノイズが変わるが、ノイズが修正されるとフェールする。
- 参考スコア(独自算出の注目度): 56.393060086442006
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many common methods for learning a world model for pixel-based environments
use generative architectures trained with pixel-level reconstruction
objectives. Recently proposed Joint Embedding Predictive Architectures (JEPA)
offer a reconstruction-free alternative. In this work, we analyze performance
of JEPA trained with VICReg and SimCLR objectives in the fully offline setting
without access to rewards, and compare the results to the performance of the
generative architecture. We test the methods in a simple environment with a
moving dot with various background distractors, and probe learned
representations for the dot's location. We find that JEPA methods perform on
par or better than reconstruction when distractor noise changes every time
step, but fail when the noise is fixed. Furthermore, we provide a theoretical
explanation for the poor performance of JEPA-based methods with fixed noise,
highlighting an important limitation.
- Abstract(参考訳): 画素ベースの環境のための世界モデルを学習するための一般的な方法は、画素レベルの再構成目的で訓練された生成アーキテクチャを使用する。
最近提案されたJEPA(Joint Embedding Predictive Architectures)は、再構築不要の代替手段を提供する。
本研究では, vicreg と simclr でトレーニングされた jepa の性能を, 報奨を受けることなく完全にオフライン環境で解析し, 生成アーキテクチャの性能と比較した。
様々な背景障害を持つ移動ドットを用いた簡易な環境での手法をテストし,その位置の学習表現を探索する。
jepaメソッドは、ステップ毎に邪魔音が変化するが、ノイズが修正されると失敗する場合に、レコンストラクションと同等かそれ以上の性能を発揮することが判明した。
さらに,JEPA法におけるノイズの固定化による性能低下を理論的に説明し,重要な限界を浮き彫りにする。
関連論文リスト
- DGTR: Distributed Gaussian Turbo-Reconstruction for Sparse-View Vast Scenes [81.56206845824572]
新規ビュー合成(NVS)アプローチは、広大なシーン再構築において重要な役割を担っている。
大規模な環境下では、復元の質が悪くなる場合が少なくない。
本稿では,スパース・ビュー・ワイド・シーンのための効率的なガウス再構成のための分散フレームワークであるDGTRを提案する。
論文 参考訳(メタデータ) (2024-11-19T07:51:44Z) - Outdoor Environment Reconstruction with Deep Learning on Radio
Propagation Paths [5.030571576007511]
本稿では,屋外環境再建のための環境無線信号を利用した新しいアプローチを提案する。
無線周波数(RF)データを解析することにより,環境特性を推定し,屋外環境をデジタル的に再構築することを目的とする。
2つのDL駆動アプローチが評価され、交差対ユニオン(IoU)、ハウスドルフ距離、シャンファー距離などの指標を用いて性能が評価される。
論文 参考訳(メタデータ) (2024-02-27T09:11:10Z) - DGNet: Dynamic Gradient-Guided Network for Water-Related Optics Image
Enhancement [77.0360085530701]
水中画像強調(UIE)は、水中環境によって引き起こされる複雑な劣化のために難しい課題である。
従来の手法では、劣化過程を理想化し、中音や物体の動きが画像の特徴の分布に与える影響を無視することが多い。
提案手法では,予測画像を用いて疑似ラベルを動的に更新し,動的勾配を加えてネットワークの勾配空間を最適化する。
論文 参考訳(メタデータ) (2023-12-12T06:07:21Z) - Few-Shot Audio-Visual Learning of Environment Acoustics [89.16560042178523]
室内インパルス応答 (RIR) 関数は、周囲の物理的環境がリスナーが聴く音をどう変換するかをキャプチャする。
我々は、空間で観測された画像とエコーのスパースセットに基づいて、RIRを推測する方法を探る。
3次元環境のための最先端オーディオ視覚シミュレータを用いた実験において,本手法が任意のRIRを生成できることを実証した。
論文 参考訳(メタデータ) (2022-06-08T16:38:24Z) - Neighborhood-Aware Neural Architecture Search [43.87465987957761]
探索空間におけるフラットミニマアーキテクチャを同定するニューラルアーキテクチャ探索(NAS)手法を提案する。
我々の定式化は、アーキテクチャの「平坦性」を考慮に入れ、このアーキテクチャの近傍における性能を集約する。
本論文では, 地域別ランダム検索 (NA-RS) と地域別差別化アーキテクチャ検索 (NA-DARTS) を提案する。
論文 参考訳(メタデータ) (2021-05-13T15:56:52Z) - Retinex-inspired Unrolling with Cooperative Prior Architecture Search
for Low-light Image Enhancement [58.72667941107544]
低照度画像のための軽量で効果的な拡張ネットワークを構築するために,Retinex-inspired Unrolling with Architecture Search (RUAS)を提案する。
RUASは、高速かつ少ない計算リソースで、最高性能の画像強化ネットワークを得ることができます。
論文 参考訳(メタデータ) (2020-12-10T11:51:23Z) - Monocular Real-Time Volumetric Performance Capture [28.481131687883256]
本稿では,モノクロ映像から実時間速度でボリューム・パフォーマンス・キャプチャとノベル・ビュー・レンダリングを行うための最初のアプローチを提案する。
このシステムは,Pixel-Aligned Implicit Function (PIFu)を活用して,各フレームから完全にテクスチャ化された3次元人体を再構成する。
また,オンラインハード・サンプル・マイニング(OHEM)技術を導入し,難題の稀な発生により,障害モードを効果的に抑制する手法を提案する。
論文 参考訳(メタデータ) (2020-07-28T04:45:13Z) - Image Matching across Wide Baselines: From Paper to Practice [80.9424750998559]
局所的な特徴とロバストな推定アルゴリズムの包括的なベンチマークを導入する。
パイプラインのモジュール構造は、さまざまなメソッドの容易な統合、構成、組み合わせを可能にします。
適切な設定で、古典的な解決策は依然として芸術の知覚された状態を上回る可能性があることを示す。
論文 参考訳(メタデータ) (2020-03-03T15:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。