論文の概要: Revealing Occlusions with 4D Neural Fields
- arxiv url: http://arxiv.org/abs/2204.10916v1
- Date: Fri, 22 Apr 2022 20:14:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-26 12:59:46.823413
- Title: Revealing Occlusions with 4D Neural Fields
- Title(参考訳): 4次元ニューラルフィールドによるオクルージョンの解明
- Authors: Basile Van Hoorick, Purva Tendulka, Didac Suris, Dennis Park, Simon
Stent, Carl Vondrick
- Abstract要約: コンピュータビジョンシステムが動的に動作するためには、オブジェクトの永続性を表現し、推論できる必要がある。
本研究では,モノクロ時間から4次元視覚表現を推定する学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 19.71277637485384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For computer vision systems to operate in dynamic situations, they need to be
able to represent and reason about object permanence. We introduce a framework
for learning to estimate 4D visual representations from monocular RGB-D, which
is able to persist objects, even once they become obstructed by occlusions.
Unlike traditional video representations, we encode point clouds into a
continuous representation, which permits the model to attend across the
spatiotemporal context to resolve occlusions. On two large video datasets that
we release along with this paper, our experiments show that the representation
is able to successfully reveal occlusions for several tasks, without any
architectural changes. Visualizations show that the attention mechanism
automatically learns to follow occluded objects. Since our approach can be
trained end-to-end and is easily adaptable, we believe it will be useful for
handling occlusions in many video understanding tasks. Data, code, and models
are available at https://occlusions.cs.columbia.edu/.
- Abstract(参考訳): コンピュータビジョンシステムが動的な状況で動作するためには、オブジェクトの永続性を表現し、推論する必要がある。
我々は,物体が閉塞された場合でも,物体を持続できる単眼RGB-Dから4次元視覚表現を推定する学習フレームワークを提案する。
従来のビデオ表現とは異なり、点雲を連続的な表現にエンコードし、そのモデルが対時的コンテキストを横断してオクルージョンを解決することを可能にする。
本稿では,本論文とともに公開する2つの大規模ビデオデータセットを用いて,アーキテクチャ上の変更を伴わずに,複数のタスクの排除をうまく表現できることを示す。
可視化では、注意機構が隠された物体を自動で追従することを示している。
我々のアプローチはエンドツーエンドで訓練でき、容易に適応できるので、多くのビデオ理解タスクにおける閉塞処理に役立ちます。
データ、コード、モデルはhttps://occlusions.cs.columbia.edu/で入手できる。
関連論文リスト
- Object-Centric Temporal Consistency via Conditional Autoregressive Inductive Biases [69.46487306858789]
Conditional Autoregressive Slot Attention (CA-SA) は、ビデオ中心の視覚タスクにおいて抽出されたオブジェクト中心の表現の時間的一貫性を高めるフレームワークである。
本稿では,提案手法が下流タスクのベースラインよりも優れていることを示す定性的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-10-21T07:44:44Z) - One-shot Video Imitation via Parameterized Symbolic Abstraction Graphs [8.872100864022675]
我々は,Sybolicized Abstraction Graphs (PSAG) によるビデオデモの解釈を提案する。
さらに,非幾何学的,視覚的に知覚できない属性を推定するために,シミュレーションによる幾何学的制約を示す。
我々のアプローチは、Avocado、Cutting Vegetable、Pouring Liquid、Rolling Dough、Slicing Pizzaといった様々なタスクで検証されている。
論文 参考訳(メタデータ) (2024-08-22T18:26:47Z) - Variational Inference for Scalable 3D Object-centric Learning [19.445804699433353]
我々は3Dシーンにおける拡張性のないオブジェクト中心表現学習の課題に取り組む。
オブジェクト中心表現学習への既存のアプローチは、より大きなシーンに一般化する際の限界を示している。
局所オブジェクト座標系におけるビュー不変3次元オブジェクト表現の学習を提案する。
論文 参考訳(メタデータ) (2023-09-25T10:23:40Z) - Linking vision and motion for self-supervised object-centric perception [16.821130222597155]
オブジェクト中心の表現は、自律運転アルゴリズムが多くの独立したエージェントとシーンの特徴の間の相互作用を推論することを可能にする。
伝統的にこれらの表現は教師付き学習によって得られてきたが、これは下流の駆動タスクからの認識を分離し、一般化を損なう可能性がある。
我々は、RGBビデオと車両のポーズを入力として、自己教師対象中心の視覚モデルを適用してオブジェクト分解を行う。
論文 参考訳(メタデータ) (2023-07-14T04:21:05Z) - Factored Neural Representation for Scene Understanding [39.66967677639173]
本稿では,モノクラーRGB-Dビデオから直接学習して,オブジェクトレベルのニューラルプレゼンテーションを生成する,ファクタリングされたニューラルシーン表現を提案する。
我々は、合成データと実データの両方に対する一連のニューラルアプローチに対して、表現が効率的で、解釈可能で、編集可能であることを示す。
論文 参考訳(メタデータ) (2023-04-21T13:40:30Z) - BundleSDF: Neural 6-DoF Tracking and 3D Reconstruction of Unknown
Objects [89.2314092102403]
モノクロRGBDビデオシーケンスから未知物体の6-DoF追跡をリアルタイムに行う手法を提案する。
視覚的テクスチャがほとんど欠如している場合でも,任意の剛体オブジェクトに対して有効である。
論文 参考訳(メタデータ) (2023-03-24T17:13:49Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z) - Stochastic Coherence Over Attention Trajectory For Continuous Learning
In Video Streams [64.82800502603138]
本稿では,映像ストリーム中のピクセルワイズ表現を段階的かつ自律的に開発するための,ニューラルネットワークに基づく新しいアプローチを提案する。
提案手法は, 参加者の入場地を観察することで, エージェントが学習できる, 人間の様の注意機構に基づく。
実験では,3次元仮想環境を利用して,映像ストリームを観察することで,エージェントが物体の識別を学べることを示す。
論文 参考訳(メタデータ) (2022-04-26T09:52:31Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z) - Learning to Track with Object Permanence [61.36492084090744]
共同物体の検出と追跡のためのエンドツーエンドのトレーニング可能なアプローチを紹介します。
私たちのモデルは、合成データと実データで共同トレーニングされ、KITTIおよびMOT17データセットの最先端を上回ります。
論文 参考訳(メタデータ) (2021-03-26T04:43:04Z) - Blocks World Revisited: The Effect of Self-Occlusion on Classification
by Convolutional Neural Networks [17.58979205709865]
TEOS(The Effect of Self-Occlusion)は、3Dオブジェクトの幾何学的形状に焦点を当てた3Dブロック世界データセットである。
現実世界では、3Dオブジェクトの自己閉塞は、ディープラーニングアプローチにとって重要な課題である。
対象物,マスク,被写体,カメラの位置,向き,自己閉塞量,および各対象物のCADモデルについて一様にサンプリングした738のビューを提供する。
論文 参考訳(メタデータ) (2021-02-25T15:02:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。