論文の概要: Compositional Scene Modeling with Global Object-Centric Representations
- arxiv url: http://arxiv.org/abs/2211.11500v1
- Date: Mon, 21 Nov 2022 14:36:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 21:17:15.251759
- Title: Compositional Scene Modeling with Global Object-Centric Representations
- Title(参考訳): 全球オブジェクト中心表現を用いた合成シーンモデリング
- Authors: Tonglin Chen, Bin Li, Zhimeng Shen and Xiangyang Xue
- Abstract要約: 人間は、メモリ内の標準画像に基づいて閉塞された部分を完了させることで、たとえ閉塞物が存在するとしても、同じ物体を容易に識別することができる。
本稿では,オブジェクトの標準画像のグローバルな表現を,監督なしに推測する合成シーンモデリング手法を提案する。
- 参考スコア(独自算出の注目度): 44.43366905943199
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The appearance of the same object may vary in different scene images due to
perspectives and occlusions between objects. Humans can easily identify the
same object, even if occlusions exist, by completing the occluded parts based
on its canonical image in the memory. Achieving this ability is still a
challenge for machine learning, especially under the unsupervised learning
setting. Inspired by such an ability of humans, this paper proposes a
compositional scene modeling method to infer global representations of
canonical images of objects without any supervision. The representation of each
object is divided into an intrinsic part, which characterizes globally
invariant information (i.e. canonical representation of an object), and an
extrinsic part, which characterizes scene-dependent information (e.g., position
and size). To infer the intrinsic representation of each object, we employ a
patch-matching strategy to align the representation of a potentially occluded
object with the canonical representations of objects, and sample the most
probable canonical representation based on the category of object determined by
amortized variational inference. Extensive experiments are conducted on four
object-centric learning benchmarks, and experimental results demonstrate that
the proposed method not only outperforms state-of-the-arts in terms of
segmentation and reconstruction, but also achieves good global object
identification performance.
- Abstract(参考訳): 同じオブジェクトの外観は、視点とオブジェクト間の閉塞により、異なるシーンイメージで変化する可能性がある。
人間は、メモリ内の標準画像に基づいて閉塞された部分を完成させることで、たとえ閉塞物が存在するとしても、同じ物体を容易に識別することができる。
この能力を達成することは、特に教師なしの学習環境下で、機械学習にとって依然として課題である。
このような人間の能力に触発された本研究では,オブジェクトの標準画像のグローバルな表現を,監督なしに推測する合成シーンモデリング手法を提案する。
各対象の表現は、世界的不変情報(例えば、対象の標準表現)を特徴付ける内在的な部分と、シーンに依存した情報(例えば、位置や大きさ)を特徴付ける外在的な部分とに分けられる。
各オブジェクトの固有表現を推定するために、潜在的な隠蔽対象の表現をオブジェクトの正準表現と整合させるパッチマッチング戦略を採用し、償却変分推論によって決定されるオブジェクトのカテゴリに基づいて最も確率の高い正準表現をサンプリングする。
4つのオブジェクト中心学習ベンチマークを用いて広範な実験を行い,提案手法がセグメンテーションや再構成の面での最先端技術を上回るだけでなく,優れたグローバルオブジェクト識別性能を実現することを実証した。
関連論文リスト
- Learning Global Object-Centric Representations via Disentangled Slot Attention [38.78205074748021]
本稿では,AIシステムに人間のような能力を持たせることによって,シーンを横断するオブジェクトを識別し,グローバルなオブジェクト中心表現の集合を学習することで,特定のオブジェクトを含む多様なシーンを生成する,新たなオブジェクト中心学習手法を提案する。
実験により,提案手法の有効性を実証し,グローバルなオブジェクト中心表現学習,オブジェクト識別,特定のオブジェクトを用いたシーン生成,シーン分解に顕著な習熟性を示した。
論文 参考訳(メタデータ) (2024-10-24T14:57:00Z) - Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。
8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。
多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-17T10:37:07Z) - Variational Inference for Scalable 3D Object-centric Learning [19.445804699433353]
我々は3Dシーンにおける拡張性のないオブジェクト中心表現学習の課題に取り組む。
オブジェクト中心表現学習への既存のアプローチは、より大きなシーンに一般化する際の限界を示している。
局所オブジェクト座標系におけるビュー不変3次元オブジェクト表現の学習を提案する。
論文 参考訳(メタデータ) (2023-09-25T10:23:40Z) - Robust and Controllable Object-Centric Learning through Energy-based
Models [95.68748828339059]
我々の研究は概念的にシンプルで一般的なアプローチであり、エネルギーベースモデルを通してオブジェクト中心の表現を学習する。
既存のアーキテクチャに容易に統合でき、高品質なオブジェクト中心表現を効果的に抽出できることを示す。
論文 参考訳(メタデータ) (2022-10-11T15:11:15Z) - Self-Supervised Learning of Object Parts for Semantic Segmentation [7.99536002595393]
我々は、オブジェクト部品の自己教師型学習がこの問題の解決策であると主張している。
本手法は3つのセマンティックセグメンテーションベンチマークの最先端を17%-3%超える。
論文 参考訳(メタデータ) (2022-04-27T17:55:17Z) - Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。
既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。
私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文 参考訳(メタデータ) (2022-03-18T21:13:56Z) - Contrastive Object Detection Using Knowledge Graph Embeddings [72.17159795485915]
一つのホットアプローチで学習したクラス埋め込みの誤差統計と、自然言語処理や知識グラフから意味的に構造化された埋め込みを比較した。
本稿では,キーポイントベースおよびトランスフォーマーベースオブジェクト検出アーキテクチャの知識埋め込み設計を提案する。
論文 参考訳(メタデータ) (2021-12-21T17:10:21Z) - Generalization and Robustness Implications in Object-Centric Learning [23.021791024676986]
本稿では,5つの共通オブジェクトデータセット上で,最先端の教師なしモデルを訓練する。
実験結果から,ダウンストリームタスクに一般的に有用なオブジェクト中心表現が得られた。
論文 参考訳(メタデータ) (2021-07-01T17:51:11Z) - Global-Local Bidirectional Reasoning for Unsupervised Representation
Learning of 3D Point Clouds [109.0016923028653]
局所構造とグローバル形状の双方向推論による点雲表現を人間の監督なしに学習する。
本研究では, 実世界の3次元オブジェクト分類データセットにおいて, 教師なしモデルが最先端の教師付き手法を超越していることを示す。
論文 参考訳(メタデータ) (2020-03-29T08:26:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。