論文の概要: RAFT-3D: Scene Flow using Rigid-Motion Embeddings
- arxiv url: http://arxiv.org/abs/2012.00726v2
- Date: Tue, 6 Apr 2021 17:11:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-30 19:44:57.708309
- Title: RAFT-3D: Scene Flow using Rigid-Motion Embeddings
- Title(参考訳): RAFT-3D: Rigid-Motion Embeddings を用いたシーンフロー
- Authors: Zachary Teed and Jia Deng
- Abstract要約: シーンフローのための新しいディープアーキテクチャであるRAFT-3Dを紹介する。
RAFT-3Dは光学フロー用に開発されたRAFTモデルに基づいているが、2Dの動きではなく、ピクセルワイドSE3の動きの高密度場を反復的に更新する。
実験によりRAFT-3Dが最先端の性能を達成することが示された。
- 参考スコア(独自算出の注目度): 71.41252518419486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the problem of scene flow: given a pair of stereo or RGB-D video
frames, estimate pixelwise 3D motion. We introduce RAFT-3D, a new deep
architecture for scene flow. RAFT-3D is based on the RAFT model developed for
optical flow but iteratively updates a dense field of pixelwise SE3 motion
instead of 2D motion. A key innovation of RAFT-3D is rigid-motion embeddings,
which represent a soft grouping of pixels into rigid objects. Integral to
rigid-motion embeddings is Dense-SE3, a differentiable layer that enforces
geometric consistency of the embeddings. Experiments show that RAFT-3D achieves
state-of-the-art performance. On FlyingThings3D, under the two-view evaluation,
we improved the best published accuracy (d < 0.05) from 34.3% to 83.7%. On
KITTI, we achieve an error of 5.77, outperforming the best published method
(6.31), despite using no object instance supervision. Code is available at
https://github.com/princeton-vl/RAFT-3D.
- Abstract(参考訳): 一対のステレオまたはRGB-Dビデオフレームが与えられた場合、画素回りの3Dモーションを推定する。
シーンフローのための新しいディープアーキテクチャであるRAFT-3Dを紹介する。
RAFT-3Dは光学的流れのために開発されたRAFTモデルに基づいているが、2Dの動きではなく、高密度のSE3の動きを反復的に更新する。
RAFT-3Dの鍵となる革新は、剛体物体へのピクセルのソフトなグループ化を表す剛体運動埋め込みである。
剛体運動埋め込みへの積分は、埋め込みの幾何学的一貫性を強制する微分可能な層であるdung-se3である。
実験によりRAFT-3Dが最先端の性能を達成することが示された。
FlyingThings3Dでは、2ビュー評価により、最高の発行精度(d < 0.05)を34.3%から83.7%に改善した。
KITTIでは,オブジェクトインスタンスの監視を使わずとも,ベストパブリッシュメソッド(6.31)よりも優れた5.77の誤差を達成した。
コードはhttps://github.com/princeton-vl/RAFT-3Dで入手できる。
関連論文リスト
- GaussRender: Learning 3D Occupancy with Gaussian Rendering [84.60008381280286]
GaussRenderは、Voxelベースの監視を強化する3Dから2Dへのプラグアンドプレイのリジェクション損失である。
提案手法は, 任意の2次元視点に3次元ボクセル表現を投影し, ガウススプラッティングをボクセルの効率的かつ微分可能なレンダリングプロキシとして活用する。
論文 参考訳(メタデータ) (2025-02-07T16:07:51Z) - Hyper-3DG: Text-to-3D Gaussian Generation via Hypergraph [20.488040789522604]
本稿では,ハイパーグラフ(Hyper-3DG)を用いた3次元ガウス生成法を提案する。
本フレームワークは, 凝集度を最適化し, 劣化を効果的に回避し, 微細に生成した3Dオブジェクトの創出を可能にする。
論文 参考訳(メタデータ) (2024-03-14T09:59:55Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Points-to-3D: Bridging the Gap between Sparse Points and
Shape-Controllable Text-to-3D Generation [16.232803881159022]
本稿では,スパースで自由な3Dポイントとリアルな形状制御可能な3D生成とのギャップを埋めるために,Points-to-3Dのフレキシブルなフレームワークを提案する。
Points-to-3Dの基本的な考え方は、テキストから3D生成を導くために制御可能なスパース3Dポイントを導入することである。
論文 参考訳(メタデータ) (2023-07-26T02:16:55Z) - DiT-3D: Exploring Plain Diffusion Transformers for 3D Shape Generation [49.22974835756199]
本稿では,3次元形状生成のための新しい拡散変換器,すなわちDiT-3Dを提案する。
既存のU-Netアプローチと比較して、私たちのDiT-3Dはモデルサイズがよりスケーラブルで、より高品質な世代を生み出す。
ShapeNetデータセットの実験結果から,提案したDiT-3Dが最先端性能を実現することが示された。
論文 参考訳(メタデータ) (2023-07-04T17:15:46Z) - Magic123: One Image to High-Quality 3D Object Generation Using Both 2D
and 3D Diffusion Priors [104.79392615848109]
Magic123は、高品質でテクスチャ化された3Dメッシュのための、2段階の粗大なアプローチである。
最初の段階では、粗い幾何学を生成するために、神経放射場を最適化する。
第2段階では、視覚的に魅力的なテクスチャを持つ高分解能メッシュを生成するために、メモリ効率のよい微分可能なメッシュ表現を採用する。
論文 参考訳(メタデータ) (2023-06-30T17:59:08Z) - Mimic3D: Thriving 3D-Aware GANs via 3D-to-2D Imitation [29.959223778769513]
本稿では,3D-to-2Dの模倣という新たな学習手法を提案する。
また、3D表現学習を改善するために、ジェネレータに3D対応の畳み込みを導入する。
その結果,FFHQとAFHQ-v2のFIDスコアは512×512でそれぞれ5.4点,AFHQ-v2 Catsでは4.3点に達した。
論文 参考訳(メタデータ) (2023-03-16T02:18:41Z) - CIPS-3D: A 3D-Aware Generator of GANs Based on Conditionally-Independent
Pixel Synthesis [148.4104739574094]
本稿では,浅いNeRFネットワークと深い暗黙のニューラル表現ネットワークからなるスタイルベースの3D対応ジェネレータであるCIPS-3Dを提案する。
ジェネレータは、空間畳み込みやアップサンプリング操作をすることなく、各画素値を独立して合成する。
FFHQの256times256$解像度で、画像のFIDが6.97で3D対応画像合成の新記録を樹立した。
論文 参考訳(メタデータ) (2021-10-19T08:02:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。