論文の概要: Bridging the Gap to Real-World Object-Centric Learning
- arxiv url: http://arxiv.org/abs/2209.14860v1
- Date: Thu, 29 Sep 2022 15:24:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 16:34:30.711835
- Title: Bridging the Gap to Real-World Object-Centric Learning
- Title(参考訳): 現実世界のオブジェクト中心学習にギャップを埋める
- Authors: Maximilian Seitzer, Max Horn, Andrii Zadaianchuk, Dominik Zietlow,
Tianjun Xiao, Carl-Johann Simon-Gabriel, Tong He, Zheng Zhang, Bernhard
Sch\"olkopf, Thomas Brox, Francesco Locatello
- Abstract要約: 自己教師付き方法で訓練されたモデルから特徴を再構成することは、完全に教師なしの方法でオブジェクト中心表現が生じるための十分な訓練信号であることを示す。
我々のアプローチであるDINOSAURは、シミュレーションデータ上で既存のオブジェクト中心学習モデルよりも大幅に優れています。
- 参考スコア(独自算出の注目度): 66.55867830853803
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans naturally decompose their environment into entities at the appropriate
level of abstraction to act in the world. Allowing machine learning algorithms
to derive this decomposition in an unsupervised way has become an important
line of research. However, current methods are restricted to simulated data or
require additional information in the form of motion or depth in order to
successfully discover objects. In this work, we overcome this limitation by
showing that reconstructing features from models trained in a self-supervised
manner is a sufficient training signal for object-centric representations to
arise in a fully unsupervised way. Our approach, DINOSAUR, significantly
out-performs existing object-centric learning models on simulated data and is
the first unsupervised object-centric model that scales to real world-datasets
such as COCO and PASCAL VOC. DINOSAUR is conceptually simple and shows
competitive performance compared to more involved pipelines from the computer
vision literature.
- Abstract(参考訳): 人間は自然に環境を、世界に作用する適切な抽象レベルで実体に分解する。
機械学習アルゴリズムでこの分解を教師なしの方法で導くことは、重要な研究のラインとなっている。
しかし、現在の手法はシミュレーションデータに制限されているか、物体をうまく発見するために動きや深さの形で追加情報を必要とする。
そこで本研究では,自己教師ありで訓練されたモデルから特徴を再構築することは,オブジェクト中心表現を完全に教師なしの方法で生成するための十分な訓練信号であることを示すことにより,この限界を克服する。
我々のアプローチであるDINOSAURは、シミュレーションデータ上で既存のオブジェクト中心学習モデルよりも大幅に優れており、COCOやPASCALVOCのような実世界のデータセットにスケールする最初の教師なしオブジェクト中心学習モデルである。
DINOSAURは概念的には単純で、コンピュータビジョンの文献のより複雑なパイプラインに比べて競争力がある。
関連論文リスト
- Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。
8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。
多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-17T10:37:07Z) - URLOST: Unsupervised Representation Learning without Stationarity or
Topology [26.17135629579595]
定常性やトポロジに欠ける高次元データから学習する新しいフレームワークを提案する。
我々のモデルは学習可能な自己組織化層、密度調整されたスペクトルクラスタリング、マスク付きオートエンコーダを組み合わせる。
本研究は,生体視覚データ,一次視覚野からの神経記録,遺伝子発現データセットにおいて有効性を評価する。
論文 参考訳(メタデータ) (2023-10-06T18:00:02Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Robust and Controllable Object-Centric Learning through Energy-based
Models [95.68748828339059]
我々の研究は概念的にシンプルで一般的なアプローチであり、エネルギーベースモデルを通してオブジェクト中心の表現を学習する。
既存のアーキテクチャに容易に統合でき、高品質なオブジェクト中心表現を効果的に抽出できることを示す。
論文 参考訳(メタデータ) (2022-10-11T15:11:15Z) - Curious Exploration via Structured World Models Yields Zero-Shot Object
Manipulation [19.840186443344]
そこで本研究では,制御ループに帰納バイアスを組み込む構造的世界モデルを用いて,サンプル効率の高い探索を実現することを提案する。
提案手法は,早期にオブジェクトと対話し始める自由プレイ動作を生成し,時間とともにより複雑な動作を発達させる。
論文 参考訳(メタデータ) (2022-06-22T22:08:50Z) - Conditional Object-Centric Learning from Video [34.012087337046005]
我々は、リアルな合成シーンのための光の流れを予測するために、スロット注意を逐次拡張する。
我々は,このモデルの初期状態が,第1フレーム内の物体の質量の中心など,小さなヒントの集合に条件付けるだけで,インスタンスのセグメンテーションを大幅に改善できることを示す。
これらの利点は、トレーニング分布を超えて、新しいオブジェクト、新しいバックグラウンド、より長いビデオシーケンスに一般化される。
論文 参考訳(メタデータ) (2021-11-24T16:10:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。