論文の概要: EPIC Fields: Marrying 3D Geometry and Video Understanding
- arxiv url: http://arxiv.org/abs/2306.08731v1
- Date: Wed, 14 Jun 2023 20:33:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 17:19:38.830734
- Title: EPIC Fields: Marrying 3D Geometry and Video Understanding
- Title(参考訳): epic fields: 3dジオメトリとビデオ理解の結婚
- Authors: Vadim Tschernezki, Ahmad Darkhalil, Zhifan Zhu, David Fouhey, Iro
Laina, Diane Larlus, Dima Damen, Andrea Vedaldi
- Abstract要約: EPIC Fieldsは、EPIC-KITCHENSの3Dカメラ情報の拡張である。
これは、フォトグラムを使ってカメラを再構築する複雑で高価なステップを取り除く。
EPICKITCHENSのビデオの96%を再構築し、45のキッチンで99時間に19Mフレームを登録した。
- 参考スコア(独自算出の注目度): 90.56519804368321
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural rendering is fuelling a unification of learning, 3D geometry and video
understanding that has been waiting for more than two decades. Progress,
however, is still hampered by a lack of suitable datasets and benchmarks. To
address this gap, we introduce EPIC Fields, an augmentation of EPIC-KITCHENS
with 3D camera information. Like other datasets for neural rendering, EPIC
Fields removes the complex and expensive step of reconstructing cameras using
photogrammetry, and allows researchers to focus on modelling problems. We
illustrate the challenge of photogrammetry in egocentric videos of dynamic
actions and propose innovations to address them. Compared to other neural
rendering datasets, EPIC Fields is better tailored to video understanding
because it is paired with labelled action segments and the recent VISOR segment
annotations. To further motivate the community, we also evaluate two benchmark
tasks in neural rendering and segmenting dynamic objects, with strong baselines
that showcase what is not possible today. We also highlight the advantage of
geometry in semi-supervised video object segmentations on the VISOR
annotations. EPIC Fields reconstructs 96% of videos in EPICKITCHENS,
registering 19M frames in 99 hours recorded in 45 kitchens.
- Abstract(参考訳): ニューラルレンダリングは、20年以上待ち続けている学習と3D幾何学、そしてビデオ理解の統一を加速させている。
しかし、プログレスはまだ適切なデータセットとベンチマークの欠如によって妨げられている。
このギャップに対処するために,EPIC-KITCHENSを3次元カメラ情報で拡張したEPIC Fieldsを導入する。
ニューラルレンダリングのための他のデータセットと同様に、EPIC Fieldsは、フォトグラムを使ってカメラを再構成する複雑で高価なステップを取り除き、研究者が問題モデリングに集中できるようにする。
本稿では,ダイナミックアクションのエゴセントリックビデオにおけるフォトグラメトリーの課題を説明し,それに対処するためのイノベーションを提案する。
他のニューラルレンダリングデータセットと比較して、EPIC Fieldsはラベル付きアクションセグメントと最近のVISORセグメントアノテーションとの組み合わせであるため、ビデオ理解に適している。
さらにコミュニティのモチベーションを高めるために、ニューラルネットワークと動的オブジェクトのセグメンテーションにおける2つのベンチマークタスクを評価します。
また,バイザアノテーション上の半教師付き映像オブジェクトセグメンテーションにおける幾何の利点を強調する。
EPIC FieldsはEPICKITCHENSの動画の96%を再構築し、45のキッチンで99時間に19Mフレームを登録している。
関連論文リスト
- 3D-Aware Instance Segmentation and Tracking in Egocentric Videos [107.10661490652822]
エゴセントリックなビデオは、3Dシーンの理解にユニークな課題を提示する。
本稿では,一対一のビデオにおけるインスタンスのセグメンテーションとトラッキングに対する新しいアプローチを提案する。
空間的および時間的手がかりを取り入れることで、最先端の2D手法と比較して優れた性能が得られる。
論文 参考訳(メタデータ) (2024-08-19T10:08:25Z) - Diffusion-Guided Reconstruction of Everyday Hand-Object Interaction
Clips [38.02945794078731]
短いビデオクリップから手動物体のインタラクションを再構築する作業に取り組む。
提案手法は,映像ごとの3D推論を最適化し,物体形状のニューラルな3D表現を復元する。
我々は、エゴセントリックビデオに対する我々のアプローチを実証的に評価し、以前のシングルビュー法やマルチビュー法よりも大幅に改善されていることを観察した。
論文 参考訳(メタデータ) (2023-09-11T17:58:30Z) - EPIC-KITCHENS VISOR Benchmark: VIdeo Segmentations and Object Relations [83.26326325568208]
我々は、新しいピクセルアノテーションのデータセットであるVISORと、エゴセントリックなビデオで手やアクティブなオブジェクトをセグメンテーションするためのベンチマークスイートを紹介する。
具体的には、オブジェクトが変換的相互作用を行う場合、ピクセルレベルのアノテーションの短期的および長期的整合性を保証する必要がある。
VISORは、拡張性と品質のために、部分でAI駆動のアノテーションパイプラインを導入している。
論文 参考訳(メタデータ) (2022-09-26T23:03:26Z) - Learning Dynamic View Synthesis With Few RGBD Cameras [60.36357774688289]
本稿では,RGBDカメラを用いて動的屋内シーンのフリー視点映像を合成することを提案する。
我々は、RGBDフレームから点雲を生成し、それをニューラル機能を介して、自由視点ビデオにレンダリングする。
そこで本研究では,未完成の深度を適応的に塗布して新規なビューを描画する,シンプルなRegional Depth-Inpaintingモジュールを提案する。
論文 参考訳(メタデータ) (2022-04-22T03:17:35Z) - NeuralDiff: Segmenting 3D objects that move in egocentric videos [92.95176458079047]
観測された3次元シーンを静的な背景と動的前景に分解する問題について検討する。
このタスクは、古典的な背景の減算問題を連想させるが、静的でダイナミックなシーンの全ての部分が大きな動きを生じさせるため、非常に難しい。
特に、自我中心のビデオについて検討し、動的コンポーネントを観察・移動するオブジェクトとアクターにさらに分離する。
論文 参考訳(メタデータ) (2021-10-19T12:51:35Z) - Zero-Shot Video Object Segmentation via Attentive Graph Neural Networks [150.5425122989146]
本研究は、ゼロショットビデオオブジェクトセグメンテーション(ZVOS)のための新しい注意グラフニューラルネットワーク(AGNN)を提案する。
AGNNは、フレームをノードとして効率的に表現し、任意のフレームペア間の関係をエッジとして表現するために、完全に連結されたグラフを構築している。
3つのビデオセグメンテーションデータセットの実験結果は、AGNNがそれぞれのケースに新しい最先端を設定していることを示している。
論文 参考訳(メタデータ) (2020-01-19T10:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。