論文の概要: SAIL-VOS 3D: A Synthetic Dataset and Baselines for Object Detection and
3D Mesh Reconstruction from Video Data
- arxiv url: http://arxiv.org/abs/2105.08612v1
- Date: Tue, 18 May 2021 15:42:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-19 14:05:46.428725
- Title: SAIL-VOS 3D: A Synthetic Dataset and Baselines for Object Detection and
3D Mesh Reconstruction from Video Data
- Title(参考訳): SAIL-VOS 3D:映像データからのオブジェクト検出と3Dメッシュ再構成のための合成データセットとベースライン
- Authors: Yuan-Ting Hu, Jiahong Wang, Raymond A. Yeh, Alexander G. Schwing
- Abstract要約: sail-vos 3d: フレーム毎のメッシュアノテーションを備えた合成ビデオデータセット。
また,時間モデルによる映像データから3次元メッシュを再構成するための最初のベースラインを開発した。
- 参考スコア(独自算出の注目度): 124.2624568006391
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Extracting detailed 3D information of objects from video data is an important
goal for holistic scene understanding. While recent methods have shown
impressive results when reconstructing meshes of objects from a single image,
results often remain ambiguous as part of the object is unobserved. Moreover,
existing image-based datasets for mesh reconstruction don't permit to study
models which integrate temporal information. To alleviate both concerns we
present SAIL-VOS 3D: a synthetic video dataset with frame-by-frame mesh
annotations which extends SAIL-VOS. We also develop first baselines for
reconstruction of 3D meshes from video data via temporal models. We demonstrate
efficacy of the proposed baseline on SAIL-VOS 3D and Pix3D, showing that
temporal information improves reconstruction quality. Resources and additional
information are available at http://sailvos.web.illinois.edu.
- Abstract(参考訳): 映像データからオブジェクトの詳細な3D情報を抽出することは、全体像理解の重要な目標である。
最近の手法では、単一の画像からオブジェクトのメッシュを再構築する場合に印象的な結果が得られたが、オブジェクトの一部が観測できないため、結果が曖昧なままであることが多い。
さらに、メッシュ再構築のための既存の画像ベースのデータセットは、時間情報を統合するモデルの研究を許可しません。
SAIL-VOS 3D:SAIL-VOSを拡張したフレーム単位のメッシュアノテーションを備えた合成ビデオデータセット。
また,時間モデルによる映像データから3次元メッシュを再構成するための最初のベースラインを開発した。
提案するベースラインがSAIL-VOS 3DとPix3Dに対して有効であることを示し,時間的情報により復元精度が向上することを示した。
リソースと追加情報はhttp://sailvos.web.illinois.eduで入手できる。
関連論文リスト
- AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - Anything-3D: Towards Single-view Anything Reconstruction in the Wild [61.090129285205805]
本稿では,一連の視覚言語モデルとSegment-Anythingオブジェクトセグメンテーションモデルを組み合わせた方法論的フレームワークであるAnything-3Dを紹介する。
提案手法では、BLIPモデルを用いてテキスト記述を生成し、Segment-Anythingモデルを用いて関心対象を効果的に抽出し、テキスト・画像拡散モデルを用いて物体を神経放射場へ持ち上げる。
論文 参考訳(メタデータ) (2023-04-19T16:39:51Z) - D3D-HOI: Dynamic 3D Human-Object Interactions from Videos [49.38319295373466]
本稿では,D3D-HOIについて紹介する。D3D-HOIは3次元オブジェクトのポーズ,形状,動きを,人間と物体の相互作用の時,地上の真理アノテーションを付加したモノクロビデオのデータセットである。
我々のデータセットは、様々な現実世界のシーンとカメラの視点から捉えた、いくつかの共通したオブジェクトで構成されている。
我々は、推定された3次元人間のポーズを利用して、物体の空間的レイアウトとダイナミクスをより正確に推定する。
論文 参考訳(メタデータ) (2021-08-19T00:49:01Z) - RandomRooms: Unsupervised Pre-training from Synthetic Shapes and
Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。
最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。
本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:56:12Z) - Unsupervised Learning of 3D Object Categories from Videos in the Wild [75.09720013151247]
オブジェクトインスタンスの大規模なコレクションの複数のビューからモデルを学ぶことに重点を置いています。
再構成を大幅に改善するワープコンディショニングレイ埋め込み(WCR)と呼ばれる新しいニューラルネットワーク設計を提案する。
本評価は,既存のベンチマークを用いた複数の深部単眼再構成ベースラインに対する性能改善を示す。
論文 参考訳(メタデータ) (2021-03-30T17:57:01Z) - Objectron: A Large Scale Dataset of Object-Centric Videos in the Wild
with Pose Annotations [0.0]
3Dオブジェクト検出の最先端を前進させるために、Objectronデータセットを紹介します。
データセットには、9つのカテゴリのポーズアノテーションを備えたオブジェクト中心の短いビデオが含まれ、14,819の注釈付きビデオに400万の注釈付き画像が含まれています。
論文 参考訳(メタデータ) (2020-12-18T00:34:18Z) - Info3D: Representation Learning on 3D Objects using Mutual Information
Maximization and Contrastive Learning [8.448611728105513]
本稿では,3次元形状に関するInfoMaxと対照的な学習原理を拡張することを提案する。
我々は3Dオブジェクトとその「チャンク」間の相互情報を最大化して、整列したデータセットにおける表現を改善することができることを示す。
論文 参考訳(メタデータ) (2020-06-04T00:30:26Z) - CoReNet: Coherent 3D scene reconstruction from a single RGB image [43.74240268086773]
我々は1つのRBG画像のみを入力として与えられた1つの物体の形状を再構築する深層学習の進歩の上に構築する。
提案する3つの拡張は,(1)局所的な2次元情報を物理的に正しい方法で出力3Dボリュームに伝播するレイトレーシングスキップ接続,(2)翻訳同変モデルの構築を可能にするハイブリッド3Dボリューム表現,(3)全体オブジェクトの形状を捉えるために調整された再構成損失である。
すべての物体がカメラに対して一貫した1つの3次元座標フレームに居住し、3次元空間内では交差しないコヒーレントな再構成を実現する。
論文 参考訳(メタデータ) (2020-04-27T17:53:07Z) - Single-View 3D Object Reconstruction from Shape Priors in Memory [15.641803721287628]
単一視点3次元オブジェクト再構成のための既存の方法は、高品質な3次元形状を再構築するのに十分な情報を含んでいない。
本稿では,画像中の不足情報を補うために,形状先行を明示的に構成するMem3Dという新しい手法を提案する。
また,入力画像と高い関連性を有する正確な3次元形状の検索を支援するボクセル三重項損失関数を提案する。
論文 参考訳(メタデータ) (2020-03-08T03:51:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。