論文の概要: Robust and Controllable Object-Centric Learning through Energy-based
Models
- arxiv url: http://arxiv.org/abs/2210.05519v1
- Date: Tue, 11 Oct 2022 15:11:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 16:55:54.171769
- Title: Robust and Controllable Object-Centric Learning through Energy-based
Models
- Title(参考訳): エネルギーモデルによるロバストで制御可能なオブジェクト中心学習
- Authors: Ruixiang Zhang, Tong Che, Boris Ivanovic, Renhao Wang, Marco Pavone,
Yoshua Bengio, Liam Paull
- Abstract要約: 我々の研究は概念的にシンプルで一般的なアプローチであり、エネルギーベースモデルを通してオブジェクト中心の表現を学習する。
既存のアーキテクチャに容易に統合でき、高品質なオブジェクト中心表現を効果的に抽出できることを示す。
- 参考スコア(独自算出の注目度): 95.68748828339059
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans are remarkably good at understanding and reasoning about complex
visual scenes. The capability to decompose low-level observations into discrete
objects allows us to build a grounded abstract representation and identify the
compositional structure of the world. Accordingly, it is a crucial step for
machine learning models to be capable of inferring objects and their properties
from visual scenes without explicit supervision. However, existing works on
object-centric representation learning either rely on tailor-made neural
network modules or strong probabilistic assumptions in the underlying
generative and inference processes. In this work, we present \ours, a
conceptually simple and general approach to learning object-centric
representations through an energy-based model. By forming a
permutation-invariant energy function using vanilla attention blocks readily
available in Transformers, we can infer object-centric latent variables via
gradient-based MCMC methods where permutation equivariance is automatically
guaranteed. We show that \ours can be easily integrated into existing
architectures and can effectively extract high-quality object-centric
representations, leading to better segmentation accuracy and competitive
downstream task performance. Further, empirical evaluations show that \ours's
learned representations are robust against distribution shift. Finally, we
demonstrate the effectiveness of \ours in systematic compositional
generalization, by re-composing learned energy functions for novel scene
generation and manipulation.
- Abstract(参考訳): 人間は複雑な視覚シーンの理解と推論がとても得意です。
低レベルの観測を離散オブジェクトに分解する能力により、基底化された抽象表現を構築し、世界の構成構造を特定することができる。
したがって、明示的な監督なしに、視覚的なシーンからオブジェクトとそのプロパティを推論できる機械学習モデルにとって重要なステップである。
しかしながら、オブジェクト中心の表現学習に関する既存の研究は、テーラーメイドニューラルネットワークモジュールや、基礎となる生成および推論プロセスにおける強い確率論的仮定に依存する。
本研究では,エネルギーベースモデルを通じてオブジェクト中心表現を学ぶための概念的にシンプルで一般的なアプローチである \ours を提案する。
変換器で容易に利用できるバニラアテンションブロックを用いて置換不変エネルギー関数を形成することにより、置換同値が自動的に保証される勾配に基づくMCMC法によるオブジェクト中心潜在変数を推定できる。
既存のアーキテクチャと容易に統合でき、高品質なオブジェクト中心表現を効果的に抽出でき、セグメンテーション精度が向上し、下流タスク性能の競争力も向上することを示す。
さらに, 実験的な評価から, \oursの学習表現は分布シフトに対して頑健であることが示された。
最後に,新しいシーン生成と操作のために学習エネルギー関数を再構成することで,系統的構成一般化における距離効果を実証する。
関連論文リスト
- Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。
8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。
多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-17T10:37:07Z) - Flow Factorized Representation Learning [109.51947536586677]
本稿では、異なる入力変換を定義する潜在確率パスの別個のセットを規定する生成モデルを提案する。
本モデルは,ほぼ同変モデルに近づきながら,標準表現学習ベンチマークにおいて高い確率を達成することを示す。
論文 参考訳(メタデータ) (2023-09-22T20:15:37Z) - Rotating Features for Object Discovery [74.1465486264609]
本稿では,複雑な特徴を高次元に一般化した回転特徴と,分散表現からオブジェクトを抽出する新たな評価手法を提案する。
これらの進歩により、分散オブジェクト中心の表現を単純な玩具から現実世界のデータに拡張することが可能になります。
論文 参考訳(メタデータ) (2023-06-01T12:16:26Z) - Provably Learning Object-Centric Representations [25.152680199034215]
我々は、オブジェクト中心の表現がいつ、監督なしに確実に学習できるかを分析する。
そこで本研究では, 基本構造オブジェクト表現が可逆的, 構成的推論モデルによって識別可能であることを証明した。
我々は、既存の対象中心モデルに対して、我々の理論が予測力を持つ証拠を提供する。
論文 参考訳(メタデータ) (2023-05-23T16:44:49Z) - Bridging the Gap to Real-World Object-Centric Learning [66.55867830853803]
自己教師付き方法で訓練されたモデルから特徴を再構成することは、完全に教師なしの方法でオブジェクト中心表現が生じるための十分な訓練信号であることを示す。
我々のアプローチであるDINOSAURは、シミュレーションデータ上で既存のオブジェクト中心学習モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2022-09-29T15:24:47Z) - Object Pursuit: Building a Space of Objects via Discriminative Weight
Generation [23.85039747700698]
視覚学習と理解のためのオブジェクト中心表現を継続的に学習するフレームワークを提案する。
我々は、オブジェクト中心の表現を学習しながら、オブジェクトとそれに対応するトレーニング信号の多様なバリエーションをサンプリングするために、インタラクションを活用する。
提案するフレームワークの重要な特徴について広範な研究を行い,学習した表現の特徴を分析した。
論文 参考訳(メタデータ) (2021-12-15T08:25:30Z) - Plug and Play, Model-Based Reinforcement Learning [60.813074750879615]
我々は、既知のオブジェクトクラスから新しいオブジェクトをゼロショットで統合できるオブジェクトベースの表現を導入する。
これは、グローバル遷移力学を局所遷移関数の和として表現することで達成される。
実験により, 様々なセットアップにおいて, サンプル効率が達成できることが示された。
論文 参考訳(メタデータ) (2021-08-20T01:20:15Z) - Generalization and Robustness Implications in Object-Centric Learning [23.021791024676986]
本稿では,5つの共通オブジェクトデータセット上で,最先端の教師なしモデルを訓練する。
実験結果から,ダウンストリームタスクに一般的に有用なオブジェクト中心表現が得られた。
論文 参考訳(メタデータ) (2021-07-01T17:51:11Z) - Structure-Regularized Attention for Deformable Object Representation [17.120035855774344]
文脈依存のキャプチャは、ディープニューラルネットワークの表現力を改善するのに有用であることが証明されている。
自己注意や非局所操作といったグローバルコンテキストのモデリングに焦点をあてた近年のアプローチは、要素間の制約のないペアワイズ相互作用を可能にすることで、この目標を達成する。
本稿では,データに固有の構造的依存関係をモデル化することにより,コンテキスト利用の恩恵を受けることができる変形可能なオブジェクトの学習表現について考察する。
論文 参考訳(メタデータ) (2021-06-12T03:10:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。