論文の概要: A Cookbook of 3D Vision: Data, Learning Paradigms, and Application
- arxiv url: http://arxiv.org/abs/2606.04291v1
- Date: Tue, 02 Jun 2026 23:41:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.429568
- Title: A Cookbook of 3D Vision: Data, Learning Paradigms, and Application
- Title(参考訳): 3Dビジョンのクックブック:データ、学習パラダイム、応用
- Authors: Hongyang Du, Zongxia Li, Dawei Liu, Runhao Li, Haoyuan Song, Qingyu Zhang, Yubo Wang, Jingcheng Ni, Shihang Gui, Congchao Dong, Tao Hu,
- Abstract要約: 3Dビジョンは、ますます多様なデータ表現、学習パラダイム、モデリング戦略によって、急速に進化してきた。
この研究は、幾何学的表現、データセット、学習フレームワーク、アプリケーションを単一の概念マップ内に接続する3Dビジョンのデータ中心の分類を提供する。
- 参考スコア(独自算出の注目度): 22.14736170010237
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D vision has rapidly evolved, driven by increasingly diverse data representations, learning paradigms, and modeling strategies. Yet the field remains fragmented across representations and benchmarks, making it difficult to develop unified perspectives on efficiency, fidelity, and scalability. This work provides a data-centric taxonomy of 3D vision that connects geometric representations, datasets, learning frameworks, and applications within a single conceptual map. We begin by analysing the principal structural representations of 3D data--point clouds, meshes, voxels, and 3D Gaussians--along with their acquisition pipelines. We then examine how dataset design, benchmark construction, and supervision regimes shape recent advances, spanning 2D-supervised 3D learning, implicit neural representations, and 4D world modeling. Through this integrative lens, we clarify the relationships among representations, learning paradigms, and downstream tasks in reconstruction, generation, and video modeling, offering a consolidated view of emerging trends toward balancing efficiency and fidelity and toward multimodal geometric grounding.
- Abstract(参考訳): 3Dビジョンは、ますます多様なデータ表現、学習パラダイム、モデリング戦略によって、急速に進化してきた。
しかし、フィールドは表現やベンチマークで断片化され続けており、効率性、忠実性、拡張性に関する統一的な視点を開発するのは難しい。
この研究は、幾何学的表現、データセット、学習フレームワーク、アプリケーションを単一の概念マップ内に接続する3Dビジョンのデータ中心の分類を提供する。
まずは3Dデータ – ポイントクラウド,メッシュ,ボクセル,3Dガウシアン – の基本的な構造表現と,その取得パイプラインを分析します。
次に、データセット設計、ベンチマーク構築、および監督体制が最近の進歩をどう形作るかについて検討し、2次元教師付き3D学習、暗黙のニューラル表現、および4次元世界モデリングにまたがる。
この統合レンズを通して、再構成、生成、ビデオモデリングにおける表現、学習パラダイム、下流タスクの関係を明らかにする。
関連論文リスト
- Feed-Forward 3D Scene Modeling: A Problem-Driven Perspective [91.23306722968509]
汎用的なフィードフォワード3D再構築は近年急速に進展している。
既存のフィードフォワードアプローチも同様に高いレベルのアーキテクチャパターンを共有している。
本稿では,出力形式に依存しないモデル設計戦略を中心とした新しい分類法を提案する。
論文 参考訳(メタデータ) (2026-04-15T16:07:18Z) - Bridging the Dimensionality Gap: A Taxonomy and Survey of 2D Vision Model Adaptation for 3D Analysis [0.3777013254942467]
2次元視覚における畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、これらのアーキテクチャを3次元解析の複雑な領域に拡張する大きな研究を刺激している。
しかし、2D画像の正則で密度の高い格子と、点雲やメッシュのような不規則でスパースな3Dデータの二分法によって、中心的な課題が生じる。
この調査は、このギャップを埋め、それらを3つのファミリーに分類する、包括的なレビューと適応戦略の統一的な分類を提供する。
論文 参考訳(メタデータ) (2026-04-03T06:02:29Z) - Transformed Multi-view 3D Shape Features with Contrastive Learning [1.5292939414871212]
ビジョントランスフォーマー(ViT)ベースのアーキテクチャは、多視点3D解析において有望な結果を達成する。
全体形状と対照的学習の有効性を理解するViTの能力は、広範なラベル付きデータの必要性を克服する。
論文 参考訳(メタデータ) (2025-10-22T18:29:48Z) - Advances in Feed-Forward 3D Reconstruction and View Synthesis: A Survey [171.72616707259306]
3D再構成とビュー合成は、拡張現実(AR)、仮想現実(VR)、デジタルツインといった没入型技術における基礎的な問題である。
深層学習によるフィードフォワードアプローチの最近の進歩は、高速で一般化可能な3次元再構成とビュー合成を可能にして、この分野に革命をもたらした。
論文 参考訳(メタデータ) (2025-07-19T06:13:25Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - Spatio-temporal Self-Supervised Representation Learning for 3D Point
Clouds [96.9027094562957]
ラベルのないタスクから学習できる時間的表現学習フレームワークを導入する。
幼児が野生の視覚的データからどのように学ぶかに触発され、3Dデータから派生した豊かな手がかりを探索する。
STRLは3Dポイントクラウドシーケンスから2つの時間的関連フレームを入力として、空間データ拡張で変換し、不変表現を自己指導的に学習する。
論文 参考訳(メタデータ) (2021-09-01T04:17:11Z) - Info3D: Representation Learning on 3D Objects using Mutual Information
Maximization and Contrastive Learning [8.448611728105513]
本稿では,3次元形状に関するInfoMaxと対照的な学習原理を拡張することを提案する。
我々は3Dオブジェクトとその「チャンク」間の相互情報を最大化して、整列したデータセットにおける表現を改善することができることを示す。
論文 参考訳(メタデータ) (2020-06-04T00:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。