Fugu-MT 論文翻訳(概要): GenMM: Geometrically and Temporally Consistent Multimodal Data Generation for Video and LiDAR

論文の概要: GenMM: Geometrically and Temporally Consistent Multimodal Data Generation for Video and LiDAR

arxiv url: http://arxiv.org/abs/2406.10722v1
Date: Sat, 15 Jun 2024 19:29:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-18 23:04:22.089247
Title: GenMM: Geometrically and Temporally Consistent Multimodal Data Generation for Video and LiDAR
Title（参考訳）: GenMM:ビデオとLiDARのための幾何学的かつ時間的に一貫性のあるマルチモーダルデータ生成
Authors: Bharat Singh, Viveka Kulharia, Luyu Yang, Avinash Ravichandran, Ambrish Tyagi, Ashish Shrivastava,
Abstract要約: 時間的および幾何学的に整合した3Dオブジェクトを挿入することにより、RGBビデオとLiDARスキャンを共同で編集するGenMMを提案する。提案手法では,対象映像に新たなオブジェクトをシームレスに挿入し,ブレンドするために,参照画像と3Dバウンディングボックスを用いる。
参考スコア（独自算出の注目度）: 20.046759366215728
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multimodal synthetic data generation is crucial in domains such as autonomous driving, robotics, augmented/virtual reality, and retail. We propose a novel approach, GenMM, for jointly editing RGB videos and LiDAR scans by inserting temporally and geometrically consistent 3D objects. Our method uses a reference image and 3D bounding boxes to seamlessly insert and blend new objects into target videos. We inpaint the 2D Regions of Interest (consistent with 3D boxes) using a diffusion-based video inpainting model. We then compute semantic boundaries of the object and estimate it's surface depth using state-of-the-art semantic segmentation and monocular depth estimation techniques. Subsequently, we employ a geometry-based optimization algorithm to recover the 3D shape of the object's surface, ensuring it fits precisely within the 3D bounding box. Finally, LiDAR rays intersecting with the new object surface are updated to reflect consistent depths with its geometry. Our experiments demonstrate the effectiveness of GenMM in inserting various 3D objects across video and LiDAR modalities.
Abstract（参考訳）: マルチモーダル合成データ生成は、自律運転、ロボット工学、拡張現実、仮想現実、小売といった分野において重要である。時間的および幾何学的に整合した3Dオブジェクトを挿入することにより、RGBビデオとLiDARスキャンを共同で編集するGenMMを提案する。提案手法では,対象映像に新たなオブジェクトをシームレスに挿入し,ブレンドするために,参照画像と3Dバウンディングボックスを用いる。拡散型ビデオインペインティングモデルを用いて,関心の2D領域(3Dボックスと共存)を塗布した。次に、オブジェクトのセマンティック境界を計算し、最先端のセマンティックセグメンテーションと単眼深度推定技術を用いて表面深度を推定する。その後、形状に基づく最適化アルゴリズムを用いて物体表面の3次元形状を復元し、3次元境界ボックス内に正確に収まるようにした。最後に、新しい物体表面と交差するLiDAR線は、その形状と一貫した深さを反映するように更新される。我々は,映像とLiDARモダリティにまたがって様々な3Dオブジェクトを挿入するGenMMの有効性を実証した。

関連論文リスト

PIG: Physically-based Multi-Material Interaction with 3D Gaussians [14.097146027458368]
PIG: 3次元ガウシアンとの物理的に基いた多元的相互作用は、3次元物体のセグメンテーションと高精度に相互作用する物体のシミュレーションを組み合わせた新しいアプローチである。本手法は,映像品質の面では最先端技術(SOTA)よりも優れるだけでなく,物理的に現実的なシーン生成の分野での新たな方向やパイプラインも開放することを示す。
論文参考訳（メタデータ） (2025-06-09T11:25:21Z)
Enhancing Single Image to 3D Generation using Gaussian Splatting and Hybrid Diffusion Priors [17.544733016978928]
単一の画像から3Dオブジェクトを生成するには、野生で撮影された未ポーズのRGB画像から、目に見えない景色の完全な3D形状とテクスチャを推定する必要がある。 3次元オブジェクト生成の最近の進歩は、物体の形状とテクスチャを再構築する技術を導入している。本稿では, この限界に対応するために, 2次元拡散モデルと3次元拡散モデルとのギャップを埋めることを提案する。
論文参考訳（メタデータ） (2024-10-12T10:14:11Z)
DreamMesh4D: Video-to-4D Generation with Sparse-Controlled Gaussian-Mesh Hybrid Representation [10.250715657201363]
本稿では,メッシュ表現と幾何スキン技術を組み合わせた新しいフレームワークDreamMesh4Dを紹介し,モノクロビデオから高品質な4Dオブジェクトを生成する。我々の手法は現代のグラフィックパイプラインと互換性があり、3Dゲームや映画産業におけるその可能性を示している。
論文参考訳（メタデータ） (2024-10-09T10:41:08Z)
Deep Geometric Moments Promote Shape Consistency in Text-to-3D Generation [27.43973967994717]
MT3Dは高忠実度3Dオブジェクトを利用して視点バイアスを克服するテキスト・ツー・3D生成モデルである。 3Dアセットから幾何学的詳細を取り入れることで、MT3Dは多様で幾何学的に一貫したオブジェクトを作成することができる。
論文参考訳（メタデータ） (2024-08-12T06:25:44Z)
X-Ray: A Sequential 3D Representation For Generation [54.160173837582796]
我々は、X線スキャンにインスパイアされた新しい3Dシーケンシャル表現であるX線を紹介する。 X線は3Dオブジェクトを異なる層で一連の表面フレームに変換するため、画像から3Dモデルを生成するのに適している。
論文参考訳（メタデータ） (2024-04-22T16:40:11Z)
VFMM3D: Releasing the Potential of Image by Vision Foundation Model for Monocular 3D Object Detection [80.62052650370416]
モノクル3Dオブジェクト検出は、自律運転やロボティクスなど、さまざまなアプリケーションにおいて重要な役割を担っている。本稿では,VFMM3Dを提案する。VFMM3Dは,ビジョンファウンデーションモデル(VFM)の機能を利用して,単一ビュー画像を正確にLiDARポイントクラウド表現に変換する,革新的なフレームワークである。
論文参考訳（メタデータ） (2024-04-15T03:12:12Z)
Joint-MAE: 2D-3D Joint Masked Autoencoders for 3D Point Cloud Pre-training [65.75399500494343]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。自己監督型3次元点雲事前学習のための2D-3DジョイントMAEフレームワークであるJoint-MAEを提案する。
論文参考訳（メタデータ） (2023-02-27T17:56:18Z)
Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2021-09-12T06:25:11Z)
AutoShape: Real-Time Shape-Aware Monocular 3D Object Detection [15.244852122106634]
形状認識型2D/3D制約を3D検出フレームワークに組み込む手法を提案する。具体的には、ディープニューラルネットワークを用いて、2次元画像領域の区別された2Dキーポイントを学習する。 2D/3Dキーポイントの基礎的真理を生成するために、自動的なモデル適合手法が提案されている。
論文参考訳（メタデータ） (2021-08-25T08:50:06Z)
Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文参考訳（メタデータ） (2021-07-29T12:30:39Z)
Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。 3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文参考訳（メタデータ） (2020-08-04T13:56:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。