論文の概要: Unsupervised Object-Centric Learning from Multiple Unspecified
Viewpoints
- arxiv url: http://arxiv.org/abs/2401.01922v1
- Date: Wed, 3 Jan 2024 15:09:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-05 16:30:10.049316
- Title: Unsupervised Object-Centric Learning from Multiple Unspecified
Viewpoints
- Title(参考訳): 複数の特定されていない視点からの教師なしオブジェクト指向学習
- Authors: Jinyang Yuan, Tonglin Chen, Zhimeng Shen, Bin Li, Xiangyang Xue
- Abstract要約: 我々は、監督を使わずに、複数の特定されていない視点から構成シーン表現を学習する新しい問題を考える。
本稿では,潜在表現を視点に依存しない部分と視点に依存しない部分とに分離し,この問題を解決するための深層生成モデルを提案する。
いくつかの特別に設計された合成データセットの実験により、提案手法は複数の特定されていない視点から効果的に学習できることが示されている。
- 参考スコア(独自算出の注目度): 45.88397367354284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual scenes are extremely diverse, not only because there are infinite
possible combinations of objects and backgrounds but also because the
observations of the same scene may vary greatly with the change of viewpoints.
When observing a multi-object visual scene from multiple viewpoints, humans can
perceive the scene compositionally from each viewpoint while achieving the
so-called ``object constancy'' across different viewpoints, even though the
exact viewpoints are untold. This ability is essential for humans to identify
the same object while moving and to learn from vision efficiently. It is
intriguing to design models that have a similar ability. In this paper, we
consider a novel problem of learning compositional scene representations from
multiple unspecified (i.e., unknown and unrelated) viewpoints without using any
supervision and propose a deep generative model which separates latent
representations into a viewpoint-independent part and a viewpoint-dependent
part to solve this problem. During the inference, latent representations are
randomly initialized and iteratively updated by integrating the information in
different viewpoints with neural networks. Experiments on several specifically
designed synthetic datasets have shown that the proposed method can effectively
learn from multiple unspecified viewpoints.
- Abstract(参考訳): 視覚シーンは、オブジェクトと背景の組み合わせが無限に存在するだけでなく、同じシーンの観察が視点の変化と大きく異なる可能性があるため、非常に多様である。
複数の視点から多目的視覚シーンを観察する場合、人間は、正確な視点が定まっていなくても、異なる視点でいわゆる「オブジェクト・コンステンシー」を実現しながら、各視点から構成的にシーンを知覚することができる。
この能力は、人間が移動しながら同じ物体を識別し、視覚から効率的に学ぶために不可欠である。
同じような能力を持つモデルを設計するのは興味深いことです。
本稿では,複数の不特定(未知,無関係)視点から構成シーン表現を指導することなく学習する新たな問題を考察し,潜在表現を視点に依存しない部分と視点に依存しない部分とに分離した深部生成モデルを提案する。
推論の間、潜在表現はランダムに初期化され、異なる視点の情報をニューラルネットワークと統合することで反復的に更新される。
いくつかの特別に設計された合成データセットに関する実験では、提案手法が複数の不特定な視点から効果的に学習できることが示されている。
関連論文リスト
- Improving Viewpoint-Independent Object-Centric Representations through Active Viewpoint Selection [41.419853273742746]
対象中心学習のための新しいアクティブ視点選択戦略を提案する。
各シーンの観察画像からの情報に基づいて、未知の視点から画像を予測する。
本手法は未知の視点から正確に画像を予測することができる。
論文 参考訳(メタデータ) (2024-11-01T07:01:44Z) - Learning Global Object-Centric Representations via Disentangled Slot Attention [38.78205074748021]
本稿では,AIシステムに人間のような能力を持たせることによって,シーンを横断するオブジェクトを識別し,グローバルなオブジェクト中心表現の集合を学習することで,特定のオブジェクトを含む多様なシーンを生成する,新たなオブジェクト中心学習手法を提案する。
実験により,提案手法の有効性を実証し,グローバルなオブジェクト中心表現学習,オブジェクト識別,特定のオブジェクトを用いたシーン生成,シーン分解に顕著な習熟性を示した。
論文 参考訳(メタデータ) (2024-10-24T14:57:00Z) - AnyDoor: Zero-shot Object-level Image Customization [63.44307304097742]
ユーザが指定した場所の新しいシーンにターゲットオブジェクトをテレポートする機能を備えた拡散ベースのイメージジェネレータであるAnyDoorを紹介する。
我々のモデルは1回のみ訓練され、推論段階では多様なオブジェクトとシーンの組み合わせに懸命に一般化される。
論文 参考訳(メタデータ) (2023-07-18T17:59:02Z) - A Computational Account Of Self-Supervised Visual Learning From
Egocentric Object Play [3.486683381782259]
本研究では,異なる視点を同一視する学習信号が,頑健な視覚学習を支援する方法について検討する。
物体の異なる物理的視点から学習した表現は、下流画像の分類精度を向上する。
論文 参考訳(メタデータ) (2023-05-30T22:42:03Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z) - Unsupervised Learning of Compositional Scene Representations from
Multiple Unspecified Viewpoints [41.07379505694274]
我々は、監督を使わずに、複数の特定されていない視点から構成シーン表現を学習する新しい問題を考える。
本稿では,潜在表現を視点に依存しない部分と視点に依存しない部分とに分離し,この問題を解決するための深層生成モデルを提案する。
いくつかの特別に設計された合成データセットの実験により、提案手法は複数の特定されていない視点から効果的に学習できることが示されている。
論文 参考訳(メタデータ) (2021-12-07T08:45:21Z) - Learning Object-Centric Representations of Multi-Object Scenes from
Multiple Views [9.556376932449187]
マルチビュー・マルチオブジェクトネットワーク(マルチビュー・マルチオブジェクトネットワーク、MulMON)は、複数のビューを活用することで、複数のオブジェクトシーンの正確なオブジェクト中心表現を学習する手法である。
我々は,MulMONが単一視点法よりも空間的曖昧性をよく解いていることを示す。
論文 参考訳(メタデータ) (2021-11-13T13:54:28Z) - Recognizing Actions in Videos from Unseen Viewpoints [80.6338404141284]
本研究では,現在の畳み込みニューラルネットワークモデルでは,トレーニングデータに存在しないカメラ視点からの動作を認識できないことを示す。
視認不能な認識のための新しいデータセットを導入し、視点不変表現を学習するアプローチ能力を示す。
論文 参考訳(メタデータ) (2021-03-30T17:17:54Z) - Exploit Clues from Views: Self-Supervised and Regularized Learning for
Multiview Object Recognition [66.87417785210772]
本研究では,マルチビュー自己教師型学習(MV-SSL)の問題点について検討する。
対象不変」表現を追求し,自己指導型学習のための新しい代理課題を提案する。
実験の結果,ビュー不変プロトタイプ埋め込み(VISPE)による認識と検索は,他の自己教師あり学習方法よりも優れていた。
論文 参考訳(メタデータ) (2020-03-28T07:06:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。