論文の概要: Formula-Supervised Visual-Geometric Pre-training
- arxiv url: http://arxiv.org/abs/2409.13535v1
- Date: Fri, 20 Sep 2024 14:24:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 06:41:58.250336
- Title: Formula-Supervised Visual-Geometric Pre-training
- Title(参考訳): フォーミュラ・スーパービジョンによる視覚幾何学的事前学習
- Authors: Ryosuke Yamada, Kensho Hara, Hirokatsu Kataoka, Koshi Makihara, Nakamasa Inoue, Rio Yokota, Yutaka Satoh,
- Abstract要約: FSVGP(Fulall-Supervised Visual-Geometric Pre-training)を導入する。
FSVGPは、数式から整列合成画像と点雲を自動的に生成する新しい合成事前学習法である。
実験の結果、FSVGPは6つのタスクでVisualAtomやPC-FractalDBよりも効果的に事前トレーニングできることがわかった。
- 参考スコア(独自算出の注目度): 23.060257369945013
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Throughout the history of computer vision, while research has explored the integration of images (visual) and point clouds (geometric), many advancements in image and 3D object recognition have tended to process these modalities separately. We aim to bridge this divide by integrating images and point clouds on a unified transformer model. This approach integrates the modality-specific properties of images and point clouds and achieves fundamental downstream tasks in image and 3D object recognition on a unified transformer model by learning visual-geometric representations. In this work, we introduce Formula-Supervised Visual-Geometric Pre-training (FSVGP), a novel synthetic pre-training method that automatically generates aligned synthetic images and point clouds from mathematical formulas. Through cross-modality supervision, we enable supervised pre-training between visual and geometric modalities. FSVGP also reduces reliance on real data collection, cross-modality alignment, and human annotation. Our experimental results show that FSVGP pre-trains more effectively than VisualAtom and PC-FractalDB across six tasks: image and 3D object classification, detection, and segmentation. These achievements demonstrate FSVGP's superior generalization in image and 3D object recognition and underscore the potential of synthetic pre-training in visual-geometric representation learning. Our project website is available at https://ryosuke-yamada.github.io/fdsl-fsvgp/.
- Abstract(参考訳): コンピュータビジョンの歴史を通じて、画像(視覚)と点雲(幾何学)の統合を研究してきたが、画像と3Dオブジェクト認識の進歩は、これらのモダリティを別々に処理する傾向にある。
我々は、この分割を統一トランスモデル上に画像と点雲を統合することで橋渡しすることを目指している。
このアプローチは画像と点雲のモジュラリティ固有の特性を統合し、画像における基本的な下流タスクと、視覚幾何学的表現を学習することで、統一トランスフォーマーモデル上での3次元オブジェクト認識を実現する。
本研究では,FSVGP (Fulall-Supervised Visual-Geometric Pre-training) について述べる。
相互モダリティの監督を通じて,視覚的モダリティと幾何学的モダリティの間の教師付き事前学習を可能にする。
FSVGPはまた、実際のデータ収集、モダリティ間のアライメント、人間のアノテーションへの依存を減らす。
実験の結果,FSVGPは画像と3Dオブジェクトの分類,検出,セグメンテーションの6つのタスクで,VisualAtomやPC-FractalDBよりも効果的に事前トレーニングを行うことがわかった。
これらの成果は、画像および3次元物体認識におけるFSVGPの優れた一般化を示し、視覚幾何学的表現学習における合成事前学習の可能性を強調している。
プロジェクトのWebサイトはhttps://ryosuke-yamada.github.io/fdsl-fsvgp/で公開されている。
関連論文リスト
- SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - FMGS: Foundation Model Embedded 3D Gaussian Splatting for Holistic 3D Scene Understanding [11.118857208538039]
基礎モデルの視覚言語埋め込みを3次元ガウススプラッティング(GS)に組み込んだ基礎モデル埋め込みガウススプラッティング(S)を提案する。
結果は、多面的なセマンティック一貫性を示し、様々な下流タスクを容易にし、オープン語彙言語に基づくオブジェクト検出において、最先端のメソッドを10.2%上回った。
本研究では,視覚・言語・3次元シーン表現の交わりについて検討し,制御されていない現実世界環境におけるシーン理解の強化の道を開く。
論文 参考訳(メタデータ) (2024-01-03T20:39:02Z) - Take-A-Photo: 3D-to-2D Generative Pre-training of Point Cloud Models [97.58685709663287]
生成事前学習は、2次元視覚における基本モデルの性能を高めることができる。
3Dビジョンでは、トランスフォーマーベースのバックボーンの過度な信頼性と、点雲の秩序のない性質により、生成前のトレーニングのさらなる発展が制限されている。
本稿では,任意の点クラウドモデルに適用可能な3D-to-2D生成事前学習法を提案する。
論文 参考訳(メタデータ) (2023-07-27T16:07:03Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - 3D Shape Knowledge Graph for Cross-domain 3D Shape Retrieval [20.880210749809642]
幾何学語」は、組み合わせによって実体を表現する要素成分として機能する。
各3Dまたは2Dエンティティは、その幾何学用語を知識グラフ内に固定することができ、ドメイン間のデータ間のリンクとして機能する。
提案手法の性能をモデルNet40とShapeNetCore55のデータセットで評価した。
論文 参考訳(メタデータ) (2022-10-27T02:51:24Z) - Pixel2Mesh++: 3D Mesh Generation and Refinement from Multi-View Images [82.32776379815712]
カメラポーズの有無にかかわらず、少数のカラー画像から3次元メッシュ表現における形状生成の問題について検討する。
我々は,グラフ畳み込みネットワークを用いたクロスビュー情報を活用することにより,形状品質をさらに向上する。
我々のモデルは初期メッシュの品質とカメラポーズの誤差に頑健であり、テスト時間最適化のための微分関数と組み合わせることができる。
論文 参考訳(メタデータ) (2022-04-21T03:42:31Z) - Scene Synthesis via Uncertainty-Driven Attribute Synchronization [52.31834816911887]
本稿では,3次元シーンの多様な特徴パターンを捉えるニューラルシーン合成手法を提案する。
提案手法は,ニューラルネットワークと従来のシーン合成手法の双方の長所を結合する。
論文 参考訳(メタデータ) (2021-08-30T19:45:07Z) - Using Adaptive Gradient for Texture Learning in Single-View 3D
Reconstruction [0.0]
3次元モデル再構築のための学習ベースのアプローチは、現代の応用によって注目を集めている。
本稿では,サンプリング画像のばらつきに基づいて予測座標の勾配を最適化し,新しいサンプリングアルゴリズムを提案する。
また,frechetインセプション距離(fid)を用いて学習における損失関数を形成し,レンダリング画像と入力画像とのギャップを橋渡しする。
論文 参考訳(メタデータ) (2021-04-29T07:52:54Z) - Pix2Surf: Learning Parametric 3D Surface Models of Objects from Images [64.53227129573293]
1つ以上の視点から見れば、新しいオブジェクトの3次元パラメトリック表面表現を学習する際の課題について検討する。
ビュー間で一貫した高品質なパラメトリックな3次元表面を生成できるニューラルネットワークを設計する。
提案手法は,共通対象カテゴリからの形状の公開データセットに基づいて,教師と訓練を行う。
論文 参考訳(メタデータ) (2020-08-18T06:33:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。