論文の概要: Identifiable Object-Centric Representation Learning via Probabilistic Slot Attention
- arxiv url: http://arxiv.org/abs/2406.07141v1
- Date: Tue, 11 Jun 2024 10:40:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 16:25:09.125413
- Title: Identifiable Object-Centric Representation Learning via Probabilistic Slot Attention
- Title(参考訳): 確率的スロット注意による物体中心表現学習
- Authors: Avinash Kori, Francesco Locatello, Ainkaran Santhirasekaram, Francesca Toni, Ben Glocker, Fabio De Sousa Ribeiro,
- Abstract要約: 既存の手法は、有望なオブジェクト結合能力を実証的に示すが、理論的な識別可能性の保証は比較的未発達のままである。
本稿では,オブジェクト中心のスロット表現に先行してアグリゲート混合を課す確率論的スロットアテンションアルゴリズムを提案する。
簡単な2次元データと高分解能画像データの両方を用いた理論的識別可能性の実証検証を行った。
- 参考スコア(独自算出の注目度): 40.54463333840175
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Learning modular object-centric representations is crucial for systematic generalization. Existing methods show promising object-binding capabilities empirically, but theoretical identifiability guarantees remain relatively underdeveloped. Understanding when object-centric representations can theoretically be identified is crucial for scaling slot-based methods to high-dimensional images with correctness guarantees. To that end, we propose a probabilistic slot-attention algorithm that imposes an aggregate mixture prior over object-centric slot representations, thereby providing slot identifiability guarantees without supervision, up to an equivalence relation. We provide empirical verification of our theoretical identifiability result using both simple 2-dimensional data and high-resolution imaging datasets.
- Abstract(参考訳): モジュラーオブジェクト中心表現の学習は、体系的な一般化に不可欠である。
既存の手法は、有望なオブジェクト結合能力を実証的に示すが、理論的な識別可能性の保証は比較的未発達のままである。
理論上、対象中心の表現がいつ特定できるかを理解することは、スロットベースの手法を正確性を保証する高次元画像に拡張するために重要である。
そこで本研究では,オブジェクト中心のスロット表現に先行して集合混合を課す確率論的スロットアテンションアルゴリズムを提案する。
簡単な2次元データと高分解能画像データの両方を用いた理論的識別可能性の実証検証を行った。
関連論文リスト
- Object-Centric Conformance Alignments with Synchronization (Extended Version) [57.76661079749309]
対象中心のペトリネットが一対多の関係を捉える能力と,その同一性に基づいたオブジェクトの比較と同期を行う識別子を持つペトリネットの能力を組み合わせた,新たな形式主義を提案する。
我々は、満足度変調理論(SMT)の符号化に基づく、そのようなネットに対する適合性チェック手法を提案する。
論文 参考訳(メタデータ) (2023-12-13T21:53:32Z) - Semantics Meets Temporal Correspondence: Self-supervised Object-centric Learning in Videos [63.94040814459116]
自己教師付き手法は、高レベルの意味論と低レベルの時間対応の学習において顕著な進歩を見せている。
融合した意味特徴と対応地図の上に,意味認識型マスキングスロットアテンションを提案する。
我々は、時間的コヒーレントなオブジェクト中心表現を促進するために、セマンティックおよびインスタンスレベルの時間的一貫性を自己スーパービジョンとして採用する。
論文 参考訳(メタデータ) (2023-08-19T09:12:13Z) - Modeling Multiple Views via Implicitly Preserving Global Consistency and
Local Complementarity [61.05259660910437]
複数の視点から表現を学習するために,グローバルな一貫性と相補性ネットワーク(CoCoNet)を提案する。
グローバルな段階では、重要な知識はビュー間で暗黙的に共有され、そのような知識を捕捉するためのエンコーダの強化は、学習された表現の識別性を向上させることができる。
最後に、局所的な段階において、横断的な識別的知識を結合する相補的要素を提案し、また、エンコーダが視点的識別性だけでなく、横断的な相補的情報も学習するように誘導する。
論文 参考訳(メタデータ) (2022-09-16T09:24:00Z) - Variational Distillation for Multi-View Learning [104.17551354374821]
我々は,多視点表現学習における2つの重要な特徴を利用するために,様々な情報ボトルネックを設計する。
厳密な理論的保証の下で,本手法は,観察とセマンティックラベルの内在的相関の把握を可能にする。
論文 参考訳(メタデータ) (2022-06-20T03:09:46Z) - A Principled Design of Image Representation: Towards Forensic Tasks [75.40968680537544]
本稿では, 理論, 実装, 応用の観点から, 法科学指向の画像表現を別の問題として検討する。
理論レベルでは、Dense Invariant Representation (DIR)と呼ばれる、数学的保証を伴う安定した記述を特徴とする、新しい法医学の表現フレームワークを提案する。
本稿では, ドメインパターンの検出とマッチング実験について, 最先端の記述子との比較結果を提供する。
論文 参考訳(メタデータ) (2022-03-02T07:46:52Z) - Sim2Real Object-Centric Keypoint Detection and Description [40.58367357980036]
キーポイントの検出と記述はコンピュータビジョンにおいて中心的な役割を果たす。
対象中心の定式化を提案し、各関心点が属する対象をさらに特定する必要がある。
我々はシミュレーションで訓練されたモデルを現実のアプリケーションに一般化できるsim2realコントラスト学習機構を開発した。
論文 参考訳(メタデータ) (2022-02-01T15:00:20Z) - Object Pursuit: Building a Space of Objects via Discriminative Weight
Generation [23.85039747700698]
視覚学習と理解のためのオブジェクト中心表現を継続的に学習するフレームワークを提案する。
我々は、オブジェクト中心の表現を学習しながら、オブジェクトとそれに対応するトレーニング信号の多様なバリエーションをサンプリングするために、インタラクションを活用する。
提案するフレームワークの重要な特徴について広範な研究を行い,学習した表現の特徴を分析した。
論文 参考訳(メタデータ) (2021-12-15T08:25:30Z) - Symbolic Learning and Reasoning with Noisy Data for Probabilistic
Anchoring [19.771392829416992]
ボトムアップオブジェクトアンカーに基づくセマンティックワールドモデリング手法を提案する。
我々は、マルチモーダル確率分布を扱うためにアンカーの定義を拡張した。
我々は統計的リレーショナル・ラーニングを用いて、アンカーリング・フレームワークが記号的知識を学習できるようにする。
論文 参考訳(メタデータ) (2020-02-24T16:58:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。