論文の概要: Unsupervised Object-Centric Learning from Multiple Unspecified
Viewpoints
- arxiv url: http://arxiv.org/abs/2401.01922v1
- Date: Wed, 3 Jan 2024 15:09:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-05 16:30:10.049316
- Title: Unsupervised Object-Centric Learning from Multiple Unspecified
Viewpoints
- Title(参考訳): 複数の特定されていない視点からの教師なしオブジェクト指向学習
- Authors: Jinyang Yuan, Tonglin Chen, Zhimeng Shen, Bin Li, Xiangyang Xue
- Abstract要約: 我々は、監督を使わずに、複数の特定されていない視点から構成シーン表現を学習する新しい問題を考える。
本稿では,潜在表現を視点に依存しない部分と視点に依存しない部分とに分離し,この問題を解決するための深層生成モデルを提案する。
いくつかの特別に設計された合成データセットの実験により、提案手法は複数の特定されていない視点から効果的に学習できることが示されている。
- 参考スコア(独自算出の注目度): 45.88397367354284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual scenes are extremely diverse, not only because there are infinite
possible combinations of objects and backgrounds but also because the
observations of the same scene may vary greatly with the change of viewpoints.
When observing a multi-object visual scene from multiple viewpoints, humans can
perceive the scene compositionally from each viewpoint while achieving the
so-called ``object constancy'' across different viewpoints, even though the
exact viewpoints are untold. This ability is essential for humans to identify
the same object while moving and to learn from vision efficiently. It is
intriguing to design models that have a similar ability. In this paper, we
consider a novel problem of learning compositional scene representations from
multiple unspecified (i.e., unknown and unrelated) viewpoints without using any
supervision and propose a deep generative model which separates latent
representations into a viewpoint-independent part and a viewpoint-dependent
part to solve this problem. During the inference, latent representations are
randomly initialized and iteratively updated by integrating the information in
different viewpoints with neural networks. Experiments on several specifically
designed synthetic datasets have shown that the proposed method can effectively
learn from multiple unspecified viewpoints.
- Abstract(参考訳): 視覚シーンは、オブジェクトと背景の組み合わせが無限に存在するだけでなく、同じシーンの観察が視点の変化と大きく異なる可能性があるため、非常に多様である。
複数の視点から多目的視覚シーンを観察する場合、人間は、正確な視点が定まっていなくても、異なる視点でいわゆる「オブジェクト・コンステンシー」を実現しながら、各視点から構成的にシーンを知覚することができる。
この能力は、人間が移動しながら同じ物体を識別し、視覚から効率的に学ぶために不可欠である。
同じような能力を持つモデルを設計するのは興味深いことです。
本稿では,複数の不特定(未知,無関係)視点から構成シーン表現を指導することなく学習する新たな問題を考察し,潜在表現を視点に依存しない部分と視点に依存しない部分とに分離した深部生成モデルを提案する。
推論の間、潜在表現はランダムに初期化され、異なる視点の情報をニューラルネットワークと統合することで反復的に更新される。
いくつかの特別に設計された合成データセットに関する実験では、提案手法が複数の不特定な視点から効果的に学習できることが示されている。
関連論文リスト
- A Computational Account Of Self-Supervised Visual Learning From
Egocentric Object Play [3.486683381782259]
本研究では,異なる視点を同一視する学習信号が,頑健な視覚学習を支援する方法について検討する。
物体の異なる物理的視点から学習した表現は、下流画像の分類精度を向上する。
論文 参考訳(メタデータ) (2023-05-30T22:42:03Z) - Time-Conditioned Generative Modeling of Object-Centric Representations
for Video Decomposition and Prediction [4.79974591281424]
ビデオの時間条件生成モデルを提案する。
本モデルでは,オブジェクト中心の映像分解を行い,隠蔽対象の完全な形状を再構築し,新しい視点の予測を行う。
論文 参考訳(メタデータ) (2023-01-21T13:39:39Z) - Matching Multiple Perspectives for Efficient Representation Learning [0.0]
本稿では,自己教師型学習とマルチパースペクティブマッチング技術を組み合わせたアプローチを提案する。
我々は,同一オブジェクトの複数ビューと多種多様な自己教師付き事前学習アルゴリズムを組み合わせることで,オブジェクト分類性能が向上することを示す。
論文 参考訳(メタデータ) (2022-08-16T10:33:13Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z) - Spot the Difference: A Cooperative Object-Referring Game in
Non-Perfectly Co-Observable Scene [47.7861036048079]
本稿では,不完全に共存可能な視覚シーンにおけるオブジェクト参照ゲームを提案する。
目的は、自然言語で会話することで、類似した視覚シーンの違いを見つけることである。
87kのバーチャルリアリティ画像と97kのダイアログを自己再生で生成する,SpotDiffという大規模マルチモーダルデータセットを構築した。
論文 参考訳(メタデータ) (2022-03-16T02:55:33Z) - Unsupervised Learning of Compositional Scene Representations from
Multiple Unspecified Viewpoints [41.07379505694274]
我々は、監督を使わずに、複数の特定されていない視点から構成シーン表現を学習する新しい問題を考える。
本稿では,潜在表現を視点に依存しない部分と視点に依存しない部分とに分離し,この問題を解決するための深層生成モデルを提案する。
いくつかの特別に設計された合成データセットの実験により、提案手法は複数の特定されていない視点から効果的に学習できることが示されている。
論文 参考訳(メタデータ) (2021-12-07T08:45:21Z) - Learning Object-Centric Representations of Multi-Object Scenes from
Multiple Views [9.556376932449187]
マルチビュー・マルチオブジェクトネットワーク(マルチビュー・マルチオブジェクトネットワーク、MulMON)は、複数のビューを活用することで、複数のオブジェクトシーンの正確なオブジェクト中心表現を学習する手法である。
我々は,MulMONが単一視点法よりも空間的曖昧性をよく解いていることを示す。
論文 参考訳(メタデータ) (2021-11-13T13:54:28Z) - Recognizing Actions in Videos from Unseen Viewpoints [80.6338404141284]
本研究では,現在の畳み込みニューラルネットワークモデルでは,トレーニングデータに存在しないカメラ視点からの動作を認識できないことを示す。
視認不能な認識のための新しいデータセットを導入し、視点不変表現を学習するアプローチ能力を示す。
論文 参考訳(メタデータ) (2021-03-30T17:17:54Z) - Exploit Clues from Views: Self-Supervised and Regularized Learning for
Multiview Object Recognition [66.87417785210772]
本研究では,マルチビュー自己教師型学習(MV-SSL)の問題点について検討する。
対象不変」表現を追求し,自己指導型学習のための新しい代理課題を提案する。
実験の結果,ビュー不変プロトタイプ埋め込み(VISPE)による認識と検索は,他の自己教師あり学習方法よりも優れていた。
論文 参考訳(メタデータ) (2020-03-28T07:06:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。