論文の概要: Unsupervised Object-Centric Learning with Bi-Level Optimized Query Slot
Attention
- arxiv url: http://arxiv.org/abs/2210.08990v1
- Date: Mon, 17 Oct 2022 12:14:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 16:03:14.732986
- Title: Unsupervised Object-Centric Learning with Bi-Level Optimized Query Slot
Attention
- Title(参考訳): bi-level optimized query slot attentionを用いた教師なしオブジェクト指向学習
- Authors: Baoxiong Jia, Yu Liu, Siyuan Huang
- Abstract要約: Slot-Attentionモジュールはシンプルだが効果的な設計で重要な役割を担い、多くの強力な変種を育ててきた。
本稿では、学習可能なクエリでSlot-Attentionモジュールを初期化し、(2)バイレベル最適化でモデルを最適化することで、これらの問題を解決することを提案する。
本モデルでは、教師なし画像分割と再構成において、合成と複雑な実世界の両方のデータセットに対して最先端の結果が得られる。
- 参考スコア(独自算出の注目度): 26.25900877220557
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The ability to decompose complex natural scenes into meaningful
object-centric abstractions lies at the core of human perception and reasoning.
In the recent culmination of unsupervised object-centric learning, the
Slot-Attention module has played an important role with its simple yet
effective design and fostered many powerful variants. These methods, however,
have been exceedingly difficult to train without supervision and are ambiguous
in the notion of object, especially for complex natural scenes. In this paper,
we propose to address these issues by (1) initializing Slot-Attention modules
with learnable queries and (2) optimizing the model with bi-level optimization.
With simple code adjustments on the vanilla Slot-Attention, our model, Bi-level
Optimized Query Slot Attention, achieves state-of-the-art results on both
synthetic and complex real-world datasets in unsupervised image segmentation
and reconstruction, outperforming previous baselines by a large margin (~10%).
We provide thorough ablative studies to validate the necessity and
effectiveness of our design. Additionally, our model exhibits excellent
potential for concept binding and zero-shot learning. We hope our effort could
provide a single home for the design and learning of slot-based models and pave
the way for more challenging tasks in object-centric learning. Our
implementation is publicly available at
https://github.com/Wall-Facer-liuyu/BO-QSA.
- Abstract(参考訳): 複雑な自然の風景を有意義なオブジェクト中心の抽象に分解する能力は、人間の知覚と推論の核心にある。
教師なしオブジェクト中心学習の最近の頂点において、スロットアテンションモジュールは単純で効果的な設計で重要な役割を担い、多くの強力な変種を育ててきた。
しかし、これらの手法は、監督なしでの訓練が極めて困難であり、特に複雑な自然シーンにおいて、対象の概念が曖昧である。
本稿では,(1)学習可能なクエリでSlot-Attentionモジュールを初期化し,(2)バイレベル最適化でモデルを最適化することで,これらの問題を解決することを提案する。
我々のモデルであるバイレベル最適化クエリスロット注意は、バニラSlot-Attention上で単純なコード調整を行うことで、教師なし画像のセグメンテーションと再構成において、合成および複雑な実世界のデータセットに対して、最先端の結果を得られる。
設計の必要性と有効性を検証するために、徹底的なアブレーション研究を行う。
さらに,本モデルは,概念バインディングやゼロショット学習に優れた可能性を示す。
私たちの取り組みがスロットベースのモデルの設計と学習のための単一場所を提供し、オブジェクト中心の学習においてより困難なタスクの道を開くことを期待しています。
実装はhttps://github.com/wall-facer-liuyu/bo-qsaで公開しています。
関連論文リスト
- Efficient Exploration and Discriminative World Model Learning with an Object-Centric Abstraction [19.59151245929067]
エージェントにオブジェクト中心のマッピング(アイテムとその属性のセットを記述する)を与えることで、より効率的な学習が可能になるかどうかを検討する。
この問題は、ピクセルへの高レベルの状態抽象化でアイテムをモデル化することで、階層的に最もよく解決されている。
我々はこの手法を用いて、差別的な世界モデルを学ぶ完全モデルベースのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-08-21T17:59:31Z) - On Efficient Language and Vision Assistants for Visually-Situated Natural Language Understanding: What Matters in Reading and Reasoning [33.89483627891117]
言語と視覚アシスタントの最近の進歩は印象的な能力を示しているが、透明性の欠如に悩まされている。
オープンソースモデルは、一般的なイメージタスクを効果的に処理するが、複雑な視覚的なテキスト理解の高度な計算要求に直面する。
本研究の目的は、キーコンポーネントを特定し、制約付き推論コストで効率的なモデルを作成することにより、視覚言語モデルの設計を再定義することである。
論文 参考訳(メタデータ) (2024-06-17T17:57:30Z) - Emergence and Function of Abstract Representations in Self-Supervised
Transformers [0.0]
本研究では,部分的にマスキングされた視覚シーンを再構築するために訓練された小型トランスフォーマーの内部動作について検討する。
ネットワークは、データセットのすべての意味的特徴をエンコードする中間抽象表現(抽象表現)を開発する。
正確な操作実験を用いて、抽象化がネットワークの意思決定プロセスの中心であることを実証する。
論文 参考訳(メタデータ) (2023-12-08T20:47:15Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Cycle Consistency Driven Object Discovery [75.60399804639403]
本研究では,シーンの各オブジェクトが異なるスロットに関連付けられなければならない制約を明示的に最適化する手法を提案する。
これらの一貫性目標を既存のスロットベースのオブジェクト中心手法に統合することにより、オブジェクト発見性能を大幅に改善することを示す。
提案手法は,オブジェクト発見を改善するだけでなく,下流タスクのよりリッチな機能も提供することを示唆している。
論文 参考訳(メタデータ) (2023-06-03T21:49:06Z) - Robust and Controllable Object-Centric Learning through Energy-based
Models [95.68748828339059]
我々の研究は概念的にシンプルで一般的なアプローチであり、エネルギーベースモデルを通してオブジェクト中心の表現を学習する。
既存のアーキテクチャに容易に統合でき、高品質なオブジェクト中心表現を効果的に抽出できることを示す。
論文 参考訳(メタデータ) (2022-10-11T15:11:15Z) - Sim2Real Object-Centric Keypoint Detection and Description [40.58367357980036]
キーポイントの検出と記述はコンピュータビジョンにおいて中心的な役割を果たす。
対象中心の定式化を提案し、各関心点が属する対象をさらに特定する必要がある。
我々はシミュレーションで訓練されたモデルを現実のアプリケーションに一般化できるsim2realコントラスト学習機構を開発した。
論文 参考訳(メタデータ) (2022-02-01T15:00:20Z) - Reinforcement Learning for Sparse-Reward Object-Interaction Tasks in a
First-person Simulated 3D Environment [73.9469267445146]
高忠実な3Dシミュレーション環境において、AI2Thorのような一対一のオブジェクトインタラクションタスクは、強化学習エージェントに顕著なサンプル効率の課題をもたらす。
補助的なタスクとして注意的オブジェクトモデルを学ぶことで、監督なしに、ゼロからオブジェクトインタラクションタスクを学習できることが示される。
論文 参考訳(メタデータ) (2020-10-28T19:27:26Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z) - Look-into-Object: Self-supervised Structure Modeling for Object
Recognition [71.68524003173219]
我々は,自己スーパービジョンを取り入れた「対象」(具体的かつ内在的に対象構造をモデル化する)を提案する。
認識バックボーンは、より堅牢な表現学習のために大幅に拡張可能であることを示す。
提案手法は汎用オブジェクト認識(ImageNet)や細粒度オブジェクト認識タスク(CUB, Cars, Aircraft)など,多数のベンチマークにおいて大きなパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-03-31T12:22:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。