論文の概要: 3D-MOV: Audio-Visual LSTM Autoencoder for 3D Reconstruction of Multiple
Objects from Video
- arxiv url: http://arxiv.org/abs/2110.02404v1
- Date: Tue, 5 Oct 2021 23:23:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-07 14:11:18.763489
- Title: 3D-MOV: Audio-Visual LSTM Autoencoder for 3D Reconstruction of Multiple
Objects from Video
- Title(参考訳): 3D-MOV:ビデオからの複数物体の3次元再構成のためのオーディオ・ビジュアルLSTMオートエンコーダ
- Authors: Justin Wilson and Ming C. Lin
- Abstract要約: 音声視覚入力を用いた3次元再構成のためのマルチモーダル・シングルフレーム・マルチフレームニューラルネットワークを提案する。
訓練されたLSTMオートエンコーダ3D-MOVは、様々な表面タイプやビューを考慮に入れた複数の入力を受信する。
- 参考スコア(独自算出の注目度): 29.26483070179999
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D object reconstructions of transparent and concave structured objects, with
inferred material properties, remains an open research problem for robot
navigation in unstructured environments. In this paper, we propose a multimodal
single- and multi-frame neural network for 3D reconstructions using
audio-visual inputs. Our trained reconstruction LSTM autoencoder 3D-MOV accepts
multiple inputs to account for a variety of surface types and views. Our neural
network produces high-quality 3D reconstructions using voxel representation.
Based on Intersection-over-Union (IoU), we evaluate against other baseline
methods using synthetic audio-visual datasets ShapeNet and Sound20K with impact
sounds and bounding box annotations. To the best of our knowledge, our single-
and multi-frame model is the first audio-visual reconstruction neural network
for 3D geometry and material representation.
- Abstract(参考訳): 透明・凹凸構造物体の3次元オブジェクト再構成は, 材料特性が推定されるが, 非構造環境におけるロボットナビゲーションのオープンな研究課題である。
本稿では,音声視覚入力を用いた3次元再構成のためのマルチモーダル・シングルフレーム・マルチフレームニューラルネットワークを提案する。
訓練されたLSTMオートエンコーダ3D-MOVは、様々な表面タイプやビューを考慮した複数の入力を受信する。
ニューラルネットワークはvoxel表現を用いた高品質な3d再構成を実現する。
iou (intersection-over-union) に基づいて, 衝撃音とバウンディングボックスアノテーションを用いた合成視聴覚データセット shapenet と sound20k を用いて, 他のベースライン手法に対する評価を行った。
我々の知る限りでは、我々のシングルフレームおよびマルチフレームモデルは3次元幾何学と物質表現のための最初のオーディオ視覚再構成ニューラルネットワークである。
関連論文リスト
- fMRI-3D: A Comprehensive Dataset for Enhancing fMRI-based 3D Reconstruction [50.534007259536715]
我々は15人の参加者のデータを含むfMRI-3Dデータセットを提示し、合計4768個の3Dオブジェクトを展示する。
我々は,fMRI信号から3次元視覚情報を復号化するための新しいフレームワークMinD-3Dを提案する。
論文 参考訳(メタデータ) (2024-09-17T16:13:59Z) - MinD-3D: Reconstruct High-quality 3D objects in Human Brain [50.534007259536715]
Recon3DMindは、fMRI(Functional Magnetic Resonance Imaging)信号から3次元視覚を再構成するための革新的なタスクである。
このデータセットは14人の参加者のデータを含み、3Dオブジェクトの360度ビデオが特徴である。
我々は,脳の3次元視覚情報をfMRI信号から復号化するための,新規で効果的な3段階フレームワークMinD-3Dを提案する。
論文 参考訳(メタデータ) (2023-12-12T18:21:36Z) - DMV3D: Denoising Multi-View Diffusion using 3D Large Reconstruction
Model [86.37536249046943]
textbfDMV3Dはトランスフォーマーに基づく3次元大規模再構成モデルを用いた新しい3D生成手法である。
再構成モデルでは, 3面のNeRF表現を組み込んで, ノイズの多い多視点画像をNeRF再構成とレンダリングで識別することができる。
論文 参考訳(メタデータ) (2023-11-15T18:58:41Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - SeMLaPS: Real-time Semantic Mapping with Latent Prior Networks and
Quasi-Planar Segmentation [53.83313235792596]
本稿では,RGB-Dシーケンスからのリアルタイム意味マッピングのための新しい手法を提案する。
2DニューラルネットワークとSLAMシステムに基づく3Dネットワークと3D占有マッピングを組み合わせる。
本システムは,2D-3Dネットワークベースシステムにおいて,最先端のセマンティックマッピング品質を実現する。
論文 参考訳(メタデータ) (2023-06-28T22:36:44Z) - 3D-LatentMapper: View Agnostic Single-View Reconstruction of 3D Shapes [0.0]
視覚変換器(ViT)の中間潜時空間と共同画像テキスト表現モデル(CLIP)を高速かつ効率的なシングルビュー再構成(SVR)に活用する新しいフレームワークを提案する。
本研究ではShapeNetV2データセットを用いてSOTA法との比較実験を行い,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-12-05T11:45:26Z) - Voxel-based 3D Detection and Reconstruction of Multiple Objects from a
Single Image [22.037472446683765]
入力画像から3次元特徴持ち上げ演算子を用いて3次元シーン空間に整合した3次元ボクセル特徴の正規格子を学習する。
この3Dボクセルの特徴に基づき,新しいCenterNet-3D検出ヘッドは3D空間におけるキーポイント検出として3D検出を定式化する。
我々は、粗度ボキセル化や、新しい局所PCA-SDF形状表現を含む、効率的な粗度から細度の再構成モジュールを考案する。
論文 参考訳(メタデータ) (2021-11-04T18:30:37Z) - Pix2Vox++: Multi-scale Context-aware 3D Object Reconstruction from
Single and Multiple Images [56.652027072552606]
Pix2Vox++という,単一ビューと複数ビューの3Dオブジェクト再構成のための新しいフレームワークを提案する。
良く設計されたエンコーダデコーダを用いて、各入力画像から粗い3Dボリュームを生成する。
次に、マルチスケールコンテキスト対応融合モジュールを導入し、全ての粗い3Dボリュームから異なる部分の高品質な再構成を適応的に選択し、融合した3Dボリュームを得る。
論文 参考訳(メタデータ) (2020-06-22T13:48:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。