論文の概要: Learning Object-Centric Representations of Multi-Object Scenes from
Multiple Views
- arxiv url: http://arxiv.org/abs/2111.07117v1
- Date: Sat, 13 Nov 2021 13:54:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-16 14:34:48.486326
- Title: Learning Object-Centric Representations of Multi-Object Scenes from
Multiple Views
- Title(参考訳): 複数視点からの多目的シーンのオブジェクト中心表現の学習
- Authors: Li Nanbo, Cian Eastwood, Robert B. Fisher
- Abstract要約: マルチビュー・マルチオブジェクトネットワーク(マルチビュー・マルチオブジェクトネットワーク、MulMON)は、複数のビューを活用することで、複数のオブジェクトシーンの正確なオブジェクト中心表現を学習する手法である。
我々は,MulMONが単一視点法よりも空間的曖昧性をよく解いていることを示す。
- 参考スコア(独自算出の注目度): 9.556376932449187
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Learning object-centric representations of multi-object scenes is a promising
approach towards machine intelligence, facilitating high-level reasoning and
control from visual sensory data. However, current approaches for unsupervised
object-centric scene representation are incapable of aggregating information
from multiple observations of a scene. As a result, these "single-view" methods
form their representations of a 3D scene based only on a single 2D observation
(view). Naturally, this leads to several inaccuracies, with these methods
falling victim to single-view spatial ambiguities. To address this, we propose
The Multi-View and Multi-Object Network (MulMON) -- a method for learning
accurate, object-centric representations of multi-object scenes by leveraging
multiple views. In order to sidestep the main technical difficulty of the
multi-object-multi-view scenario -- maintaining object correspondences across
views -- MulMON iteratively updates the latent object representations for a
scene over multiple views. To ensure that these iterative updates do indeed
aggregate spatial information to form a complete 3D scene understanding, MulMON
is asked to predict the appearance of the scene from novel viewpoints during
training. Through experiments, we show that MulMON better-resolves spatial
ambiguities than single-view methods -- learning more accurate and disentangled
object representations -- and also achieves new functionality in predicting
object segmentations for novel viewpoints.
- Abstract(参考訳): 多目的シーンのオブジェクト中心表現を学習することは、マシンインテリジェンスに対する有望なアプローチであり、高レベルの推論と視覚感覚データからの制御を促進する。
しかし、教師なしオブジェクト中心のシーン表現に対する現在のアプローチは、シーンの複数の観察から情報を集約することができない。
結果として、これらの「シングルビュー」メソッドは、単一の2次元観察(ビュー)のみに基づいて3dシーンの表現を形成する。
当然、これはいくつかの不正確さをもたらし、これらの方法は単視点の空間的曖昧さの犠牲になる。
そこで我々は,マルチビューとマルチオブジェクトネットワーク (mulmon) を提案する。マルチビューを利用して,マルチオブジェクトシーンの正確なオブジェクト中心表現を学習する手法である。
マルチオブジェクト・マルチビューシナリオの主な技術的難しさ -- ビュー間のオブジェクト対応を維持する -- を回避するために、mulmon氏は複数のビューにわたるシーンの潜在オブジェクト表現を反復的に更新する。
これらの反復的な更新が空間情報を確実に集約して完全な3Dシーン理解を形成するようにするために、MulMONはトレーニング中に新しい視点からシーンの出現を予測するよう依頼される。
実験により,MulMONは単一視点法よりも空間的曖昧さをよく解決し,より正確で不整合なオブジェクト表現を学習し,新しい視点のオブジェクトセグメンテーションを予測するために新たな機能を実現する。
関連論文リスト
- Unsupervised Object-Centric Learning from Multiple Unspecified
Viewpoints [45.88397367354284]
我々は、監督を使わずに、複数の特定されていない視点から構成シーン表現を学習する新しい問題を考える。
本稿では,潜在表現を視点に依存しない部分と視点に依存しない部分とに分離し,この問題を解決するための深層生成モデルを提案する。
いくつかの特別に設計された合成データセットの実験により、提案手法は複数の特定されていない視点から効果的に学習できることが示されている。
論文 参考訳(メタデータ) (2024-01-03T15:09:25Z) - Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。
我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-12-13T14:27:45Z) - Variational Inference for Scalable 3D Object-centric Learning [19.445804699433353]
我々は3Dシーンにおける拡張性のないオブジェクト中心表現学習の課題に取り組む。
オブジェクト中心表現学習への既存のアプローチは、より大きなシーンに一般化する際の限界を示している。
局所オブジェクト座標系におけるビュー不変3次元オブジェクト表現の学習を提案する。
論文 参考訳(メタデータ) (2023-09-25T10:23:40Z) - MMRDN: Consistent Representation for Multi-View Manipulation
Relationship Detection in Object-Stacked Scenes [62.20046129613934]
我々は,MMRDN(Multi-view MRD Network)と呼ばれる新しい多視点融合フレームワークを提案する。
異なるビューからの2Dデータを共通の隠れ空間に投影し、埋め込みをVon-Mises-Fisher分布に適合させる。
これら2つのオブジェクトの相対位置を符号化した各オブジェクト対の点雲から、K$最大垂直近傍点(KMVN)の集合を選択する。
論文 参考訳(メタデータ) (2023-04-25T05:55:29Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - AutoRF: Learning 3D Object Radiance Fields from Single View Observations [17.289819674602295]
AutoRFは、トレーニングセットの各オブジェクトが単一のビューでのみ観察される、ニューラルな3Dオブジェクト表現を学ぶための新しいアプローチである。
提案手法は,現実の街路シーンに挑戦するさまざまなデータセットであっても,見えない物体に対してうまく一般化可能であることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:13:39Z) - Unsupervised Learning of Compositional Scene Representations from
Multiple Unspecified Viewpoints [41.07379505694274]
我々は、監督を使わずに、複数の特定されていない視点から構成シーン表現を学習する新しい問題を考える。
本稿では,潜在表現を視点に依存しない部分と視点に依存しない部分とに分離し,この問題を解決するための深層生成モデルを提案する。
いくつかの特別に設計された合成データセットの実験により、提案手法は複数の特定されていない視点から効果的に学習できることが示されている。
論文 参考訳(メタデータ) (2021-12-07T08:45:21Z) - Multi-modal Transformers Excel at Class-agnostic Object Detection [105.10403103027306]
既存の手法では、人間の理解可能な意味論によって支配されるトップダウンの監視信号が欠落していると論じる。
マルチスケール特徴処理と変形可能な自己アテンションを用いた効率よく柔軟なMViTアーキテクチャを開発した。
多様なアプリケーションにおけるMViT提案の重要性を示す。
論文 参考訳(メタデータ) (2021-11-22T18:59:29Z) - Object-Centric Representation Learning with Generative Spatial-Temporal
Factorization [5.403549896734018]
DyMON(Dynamics-Aware Multi-Object Network)は,動的シーンへの多視点オブジェクト中心表現学習の範囲を広げる手法である。
そこで我々は,DyMONが観測者の動きとシーンオブジェクトの運動の絡み合った影響を,一連の観測結果から分解することを学習していることを示す。
また,要因化されたシーン表現は,空間と時間で独立して単一のオブジェクトを問合せできることを示す。
論文 参考訳(メタデータ) (2021-11-09T20:04:16Z) - Self-Supervised Multi-View Learning via Auto-Encoding 3D Transformations [61.870882736758624]
MV-TER (Multi-View Transformation Equivariant Representations) を学習するための新しい自己監督型パラダイムを提案する。
具体的には、3Dオブジェクト上で3D変換を行い、投影による変換前後の複数のビューを取得する。
次に、変換前後の複数のビューの融合特徴表現から3d変換パラメータをデコードすることにより、内在的な3dオブジェクト表現をキャプチャする表現を自己学習する。
論文 参考訳(メタデータ) (2021-03-01T06:24:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。