論文の概要: Learning to Compose: Improving Object Centric Learning by Injecting Compositionality
- arxiv url: http://arxiv.org/abs/2405.00646v1
- Date: Wed, 1 May 2024 17:21:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-02 15:07:37.591262
- Title: Learning to Compose: Improving Object Centric Learning by Injecting Compositionality
- Title(参考訳): 作曲の学習: 構成性の導入によるオブジェクト中心学習の改善
- Authors: Whie Jung, Jaehoon Yoo, Sungjin Ahn, Seunghoon Hong,
- Abstract要約: 構成表現は、オブジェクト指向学習の重要な側面である。
既存のアプローチのほとんどは、自動エンコーディングの目的に依存しています。
表現の合成性を明確に促進する新しい目的を提案する。
- 参考スコア(独自算出の注目度): 27.364435779446072
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning compositional representation is a key aspect of object-centric learning as it enables flexible systematic generalization and supports complex visual reasoning. However, most of the existing approaches rely on auto-encoding objective, while the compositionality is implicitly imposed by the architectural or algorithmic bias in the encoder. This misalignment between auto-encoding objective and learning compositionality often results in failure of capturing meaningful object representations. In this study, we propose a novel objective that explicitly encourages compositionality of the representations. Built upon the existing object-centric learning framework (e.g., slot attention), our method incorporates additional constraints that an arbitrary mixture of object representations from two images should be valid by maximizing the likelihood of the composite data. We demonstrate that incorporating our objective to the existing framework consistently improves the objective-centric learning and enhances the robustness to the architectural choices.
- Abstract(参考訳): 構成表現の学習は、柔軟な体系的な一般化を可能にし、複雑な視覚的推論をサポートするため、オブジェクト指向学習の重要な側面である。
しかし、既存のアプローチのほとんどは自動符号化の目的に依存しており、構成性はエンコーダのアーキテクチャやアルゴリズムのバイアスによって暗黙的に課される。
自動符号化の目的と学習構成性のミスアライメントは、しばしば意味のあるオブジェクトの表現を捉えるのに失敗する。
本研究では,表現の合成性を明確に促進する新しい目的を提案する。
提案手法は,既存のオブジェクト中心学習フレームワーク(例えば,スロットアテンション)に基づいて,合成データの可能性の最大化により,2つの画像からのオブジェクト表現の任意の混合が有効であるべき制約を付加する。
既存のフレームワークに私たちの目標を組み込むことで、目標中心の学習を継続的に改善し、アーキテクチャの選択に対する堅牢性を高めることを実証する。
関連論文リスト
- IMPRINT: Generative Object Compositing by Learning Identity-Preserving Representation [40.34581973675213]
IMPRINTは、2段階の学習フレームワークでトレーニングされた新しい拡散ベースの生成モデルである。
最初のステージは、オブジェクトエンコーダのコンテキストに依存しない、アイデンティティを保存する事前トレーニングをターゲットにしている。
第2段階では、この表現を利用して、背景に合成されたオブジェクトのシームレスな調和を学ぶ。
論文 参考訳(メタデータ) (2024-03-15T21:37:04Z) - Graphical Object-Centric Actor-Critic [55.2480439325792]
本稿では,アクター批判とモデルに基づくアプローチを組み合わせたオブジェクト中心強化学習アルゴリズムを提案する。
変換器エンコーダを用いてオブジェクト表現とグラフニューラルネットワークを抽出し、環境のダイナミクスを近似する。
本アルゴリズムは,現状のモデルフリーアクター批判アルゴリズムよりも複雑な3次元ロボット環境と構成構造をもつ2次元環境において,より優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-10-26T06:05:12Z) - Cycle Consistency Driven Object Discovery [75.60399804639403]
本研究では,シーンの各オブジェクトが異なるスロットに関連付けられなければならない制約を明示的に最適化する手法を提案する。
これらの一貫性目標を既存のスロットベースのオブジェクト中心手法に統合することにより、オブジェクト発見性能を大幅に改善することを示す。
提案手法は,オブジェクト発見を改善するだけでなく,下流タスクのよりリッチな機能も提供することを示唆している。
論文 参考訳(メタデータ) (2023-06-03T21:49:06Z) - Self-Supervised Visual Representation Learning with Semantic Grouping [50.14703605659837]
我々は、未ラベルのシーン中心のデータから視覚表現を学習する問題に取り組む。
本研究では,データ駆動型セマンティックスロット,すなわちSlotConによる協調型セマンティックグルーピングと表現学習のためのコントラスト学習を提案する。
論文 参考訳(メタデータ) (2022-05-30T17:50:59Z) - Complex-Valued Autoencoders for Object Discovery [62.26260974933819]
本稿では,オブジェクト中心表現に対する分散アプローチとして,複合オートエンコーダを提案する。
このシンプルで効率的なアプローチは、単純なマルチオブジェクトデータセット上の等価な実数値オートエンコーダよりも、より良い再構成性能を実現することを示す。
また、2つのデータセット上のSlotAttentionモデルと競合しないオブジェクト発見性能を実現し、SlotAttentionが失敗する第3のデータセットでオブジェクトをアンタングルする。
論文 参考訳(メタデータ) (2022-04-05T09:25:28Z) - Object Pursuit: Building a Space of Objects via Discriminative Weight
Generation [23.85039747700698]
視覚学習と理解のためのオブジェクト中心表現を継続的に学習するフレームワークを提案する。
我々は、オブジェクト中心の表現を学習しながら、オブジェクトとそれに対応するトレーニング信号の多様なバリエーションをサンプリングするために、インタラクションを活用する。
提案するフレームワークの重要な特徴について広範な研究を行い,学習した表現の特徴を分析した。
論文 参考訳(メタデータ) (2021-12-15T08:25:30Z) - Unadversarial Examples: Designing Objects for Robust Vision [100.4627585672469]
現代の機械学習アルゴリズムの感度を入力摂動に活かし、「ロバストオブジェクト」を設計するフレームワークを開発しています。
標準ベンチマークから(シミュレーション中)ロボット工学まで,さまざまな視覚ベースのタスクに対するフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2020-12-22T18:26:07Z) - Look-into-Object: Self-supervised Structure Modeling for Object
Recognition [71.68524003173219]
我々は,自己スーパービジョンを取り入れた「対象」(具体的かつ内在的に対象構造をモデル化する)を提案する。
認識バックボーンは、より堅牢な表現学習のために大幅に拡張可能であることを示す。
提案手法は汎用オブジェクト認識(ImageNet)や細粒度オブジェクト認識タスク(CUB, Cars, Aircraft)など,多数のベンチマークにおいて大きなパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-03-31T12:22:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。