論文の概要: Unsupervised Learning of Compositional Scene Representations from
Multiple Unspecified Viewpoints
- arxiv url: http://arxiv.org/abs/2112.03568v1
- Date: Tue, 7 Dec 2021 08:45:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-08 14:34:07.719494
- Title: Unsupervised Learning of Compositional Scene Representations from
Multiple Unspecified Viewpoints
- Title(参考訳): 複数の不特定視点からの構成情景表現の教師なし学習
- Authors: Jinyang Yuan, Bin Li, Xiangyang Xue
- Abstract要約: 我々は、監督を使わずに、複数の特定されていない視点から構成シーン表現を学習する新しい問題を考える。
本稿では,潜在表現を視点に依存しない部分と視点に依存しない部分とに分離し,この問題を解決するための深層生成モデルを提案する。
いくつかの特別に設計された合成データセットの実験により、提案手法は複数の特定されていない視点から効果的に学習できることが示されている。
- 参考スコア(独自算出の注目度): 41.07379505694274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual scenes are extremely rich in diversity, not only because there are
infinite combinations of objects and background, but also because the
observations of the same scene may vary greatly with the change of viewpoints.
When observing a visual scene that contains multiple objects from multiple
viewpoints, humans are able to perceive the scene in a compositional way from
each viewpoint, while achieving the so-called "object constancy" across
different viewpoints, even though the exact viewpoints are untold. This ability
is essential for humans to identify the same object while moving and to learn
from vision efficiently. It is intriguing to design models that have the
similar ability. In this paper, we consider a novel problem of learning
compositional scene representations from multiple unspecified viewpoints
without using any supervision, and propose a deep generative model which
separates latent representations into a viewpoint-independent part and a
viewpoint-dependent part to solve this problem. To infer latent
representations, the information contained in different viewpoints is
iteratively integrated by neural networks. Experiments on several specifically
designed synthetic datasets have shown that the proposed method is able to
effectively learn from multiple unspecified viewpoints.
- Abstract(参考訳): 視覚的なシーンは、オブジェクトと背景の無限の組み合わせがあるだけでなく、同じシーンの観察が視点の変化と大きく異なる可能性があるため、非常に多様性に富んでいる。
複数の視点から複数の物体を含む視覚シーンを観察する場合、人間は個々の視点から構成的にシーンを知覚することができるが、正確な視点は未定であるにもかかわらず、異なる視点でいわゆる「オブジェクト・コンステンシー」を達成することができる。
この能力は、人間が移動しながら同じ物体を識別し、視覚から効率的に学ぶために不可欠である。
同様の能力を持つモデルを設計するのは興味深いことです。
本稿では,複数の不特定視点からの合成シーン表現を,監督を使わずに学習する新たな問題を考察し,潜在表現を視点非依存部分と視点依存部分に分離し,この問題を解決するための深層生成モデルを提案する。
潜在表現を推定するために、異なる視点に含まれる情報はニューラルネットワークによって反復的に統合される。
いくつかの特別に設計された合成データセットの実験により、提案手法は複数の特定されていない視点から効果的に学習できることが示されている。
関連論文リスト
- Improving Viewpoint-Independent Object-Centric Representations through Active Viewpoint Selection [41.419853273742746]
対象中心学習のための新しいアクティブ視点選択戦略を提案する。
各シーンの観察画像からの情報に基づいて、未知の視点から画像を予測する。
本手法は未知の視点から正確に画像を予測することができる。
論文 参考訳(メタデータ) (2024-11-01T07:01:44Z) - Learning Global Object-Centric Representations via Disentangled Slot Attention [38.78205074748021]
本稿では,AIシステムに人間のような能力を持たせることによって,シーンを横断するオブジェクトを識別し,グローバルなオブジェクト中心表現の集合を学習することで,特定のオブジェクトを含む多様なシーンを生成する,新たなオブジェクト中心学習手法を提案する。
実験により,提案手法の有効性を実証し,グローバルなオブジェクト中心表現学習,オブジェクト識別,特定のオブジェクトを用いたシーン生成,シーン分解に顕著な習熟性を示した。
論文 参考訳(メタデータ) (2024-10-24T14:57:00Z) - Unsupervised Object-Centric Learning from Multiple Unspecified
Viewpoints [45.88397367354284]
我々は、監督を使わずに、複数の特定されていない視点から構成シーン表現を学習する新しい問題を考える。
本稿では,潜在表現を視点に依存しない部分と視点に依存しない部分とに分離し,この問題を解決するための深層生成モデルを提案する。
いくつかの特別に設計された合成データセットの実験により、提案手法は複数の特定されていない視点から効果的に学習できることが示されている。
論文 参考訳(メタデータ) (2024-01-03T15:09:25Z) - A Computational Account Of Self-Supervised Visual Learning From
Egocentric Object Play [3.486683381782259]
本研究では,異なる視点を同一視する学習信号が,頑健な視覚学習を支援する方法について検討する。
物体の異なる物理的視点から学習した表現は、下流画像の分類精度を向上する。
論文 参考訳(メタデータ) (2023-05-30T22:42:03Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z) - Peripheral Vision Transformer [52.55309200601883]
我々は生物学的にインスパイアされたアプローチを採用し、視覚認識のためのディープニューラルネットワークの周辺視覚をモデル化する。
本稿では,マルチヘッド自己アテンション層に周辺位置エンコーディングを組み込むことにより,トレーニングデータから視覚領域を様々な周辺領域に分割することをネットワークが学べるようにすることを提案する。
大規模画像Netデータセット上でPerViTと呼ばれる提案したネットワークを評価し,マシン知覚モデルの内部動作を体系的に検討した。
論文 参考訳(メタデータ) (2022-06-14T12:47:47Z) - Spot the Difference: A Cooperative Object-Referring Game in
Non-Perfectly Co-Observable Scene [47.7861036048079]
本稿では,不完全に共存可能な視覚シーンにおけるオブジェクト参照ゲームを提案する。
目的は、自然言語で会話することで、類似した視覚シーンの違いを見つけることである。
87kのバーチャルリアリティ画像と97kのダイアログを自己再生で生成する,SpotDiffという大規模マルチモーダルデータセットを構築した。
論文 参考訳(メタデータ) (2022-03-16T02:55:33Z) - Learning Object-Centric Representations of Multi-Object Scenes from
Multiple Views [9.556376932449187]
マルチビュー・マルチオブジェクトネットワーク(マルチビュー・マルチオブジェクトネットワーク、MulMON)は、複数のビューを活用することで、複数のオブジェクトシーンの正確なオブジェクト中心表現を学習する手法である。
我々は,MulMONが単一視点法よりも空間的曖昧性をよく解いていることを示す。
論文 参考訳(メタデータ) (2021-11-13T13:54:28Z) - Space-time Neural Irradiance Fields for Free-Viewpoint Video [54.436478702701244]
本稿では,1つのビデオから動的シーンのニューラル照度場を学習する手法を提案する。
私たちの学習した表現は、入力ビデオのフリービューレンダリングを可能にします。
論文 参考訳(メタデータ) (2020-11-25T18:59:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。