論文の概要: Puzzles: Unbounded Video-Depth Augmentation for Scalable End-to-End 3D Reconstruction
- arxiv url: http://arxiv.org/abs/2506.23863v1
- Date: Mon, 30 Jun 2025 13:57:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:54.088415
- Title: Puzzles: Unbounded Video-Depth Augmentation for Scalable End-to-End 3D Reconstruction
- Title(参考訳): Puzzles:スケーラブルなエンドツーエンド3D再構成のための非有界ビデオ深度拡張
- Authors: Jiahao Ma, Lei Wang, Miaomiao liu, David Ahmedt-Aristizabal, Chuong Nguyen,
- Abstract要約: 本稿では,1枚の画像やビデオクリップから高品質な映像深度データを合成するデータ拡張戦略であるPuzzlesを紹介する。
実験によると、Puzzlesを既存のビデオベースの3D再構成パイプラインに統合することは、基盤となるネットワークアーキテクチャを変更することなく、一貫してパフォーマンスを向上させる。
- 参考スコア(独自算出の注目度): 11.390279529048449
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-view 3D reconstruction remains a core challenge in computer vision. Recent methods, such as DUST3R and its successors, directly regress pointmaps from image pairs without relying on known scene geometry or camera parameters. However, the performance of these models is constrained by the diversity and scale of available training data. In this work, we introduce Puzzles, a data augmentation strategy that synthesizes an unbounded volume of high-quality posed video-depth data from a single image or video clip. By simulating diverse camera trajectories and realistic scene geometry through targeted image transformations, Puzzles significantly enhances data variety. Extensive experiments show that integrating Puzzles into existing video-based 3D reconstruction pipelines consistently boosts performance without modifying the underlying network architecture. Notably, models trained on only ten percent of the original data augmented with Puzzles still achieve accuracy comparable to those trained on the full dataset. Code is available at https://jiahao-ma.github.io/puzzles/.
- Abstract(参考訳): マルチビュー3D再構成は、コンピュータビジョンにおける中核的な課題である。
DUST3Rとその後継者のような最近の手法は、既知のシーン幾何学やカメラパラメータに頼ることなく、画像ペアから直接ポイントマップを回帰する。
しかし、これらのモデルの性能は、利用可能なトレーニングデータの多様性とスケールに制約されている。
本研究では,1枚の画像やビデオクリップから高品質な映像深度データを無拘束で合成するデータ拡張戦略であるPuzzlesを紹介する。
ターゲット画像変換による多様なカメラ軌跡とリアルなシーン形状をシミュレートすることにより、Puzzlesはデータの多様性を著しく向上する。
大規模な実験では、Puzzlesを既存のビデオベースの3D再構成パイプラインに統合することで、基盤となるネットワークアーキテクチャを変更することなく、一貫してパフォーマンスを向上させることが示されている。
特に、Puzzlesで強化された元のデータのわずか10%でトレーニングされたモデルは、完全なデータセットでトレーニングされたモデルに匹敵する精度を実現している。
コードはhttps://jiahao-ma.github.io/puzzles/.comで入手できる。
関連論文リスト
- RaySt3R: Predicting Novel Depth Maps for Zero-Shot Object Completion [49.933001840775816]
RaySt3Rは、新しいビュー合成問題として、3D形状の完成をリキャストする。
フィードフォワード変換器をトレーニングし、深度マップ、オブジェクトマスク、およびクエリ線に対する画素ごとの信頼スコアを予測する。
RaySt3Rは、これらの予測を複数のクエリビューに融合して、完全な3D形状を再構築する。
論文 参考訳(メタデータ) (2025-06-05T17:43:23Z) - EvGGS: A Collaborative Learning Framework for Event-based Generalizable Gaussian Splatting [5.160735014509357]
本稿では,EvGGSと呼ばれるイベントベース汎用3D再構成フレームワークを提案する。
フィードフォワード方式でイベント入力のみから3Dガウスとしてシーンを再構築する。
提案手法は, 再現性, 深度・強度予測において, 良好な速度で全てのベースラインより優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-05-23T18:10:26Z) - Inverse Neural Rendering for Explainable Multi-Object Tracking [35.072142773300655]
我々はRGBカメラから3Dマルチオブジェクト追跡をEmphInverse Rendering (IR)問題として再放送した。
我々は、本質的に形状と外観特性を歪ませる生成潜在空間上の画像損失を最適化する。
本手法の一般化とスケーリング能力は,合成データのみから生成前を学習することで検証する。
論文 参考訳(メタデータ) (2024-04-18T17:37:53Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - Pixel2Mesh++: 3D Mesh Generation and Refinement from Multi-View Images [82.32776379815712]
カメラポーズの有無にかかわらず、少数のカラー画像から3次元メッシュ表現における形状生成の問題について検討する。
我々は,グラフ畳み込みネットワークを用いたクロスビュー情報を活用することにより,形状品質をさらに向上する。
我々のモデルは初期メッシュの品質とカメラポーズの誤差に頑健であり、テスト時間最適化のための微分関数と組み合わせることができる。
論文 参考訳(メタデータ) (2022-04-21T03:42:31Z) - Beyond 3DMM: Learning to Capture High-fidelity 3D Face Shape [77.95154911528365]
3Dモーフィブルモデル(3DMM)の適合性は、その強力な3D先行性のため、顔解析に広く有用である。
以前に再建された3次元顔は、微細な形状が失われるため、視差の低下に悩まされていた。
本論文は, パーソナライズされた形状が対応する人物と同一に見えるよう, パーソナライズされた形状を捉えるための完全な解を提案する。
論文 参考訳(メタデータ) (2022-04-09T03:46:18Z) - Pix2Vox++: Multi-scale Context-aware 3D Object Reconstruction from
Single and Multiple Images [56.652027072552606]
Pix2Vox++という,単一ビューと複数ビューの3Dオブジェクト再構成のための新しいフレームワークを提案する。
良く設計されたエンコーダデコーダを用いて、各入力画像から粗い3Dボリュームを生成する。
次に、マルチスケールコンテキスト対応融合モジュールを導入し、全ての粗い3Dボリュームから異なる部分の高品質な再構成を適応的に選択し、融合した3Dボリュームを得る。
論文 参考訳(メタデータ) (2020-06-22T13:48:09Z) - CoReNet: Coherent 3D scene reconstruction from a single RGB image [43.74240268086773]
我々は1つのRBG画像のみを入力として与えられた1つの物体の形状を再構築する深層学習の進歩の上に構築する。
提案する3つの拡張は,(1)局所的な2次元情報を物理的に正しい方法で出力3Dボリュームに伝播するレイトレーシングスキップ接続,(2)翻訳同変モデルの構築を可能にするハイブリッド3Dボリューム表現,(3)全体オブジェクトの形状を捉えるために調整された再構成損失である。
すべての物体がカメラに対して一貫した1つの3次元座標フレームに居住し、3次元空間内では交差しないコヒーレントな再構成を実現する。
論文 参考訳(メタデータ) (2020-04-27T17:53:07Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。