Fugu-MT 論文翻訳(概要): Duoduo CLIP: Efficient 3D Understanding with Multi-View Images

論文の概要: Duoduo CLIP: Efficient 3D Understanding with Multi-View Images

arxiv url: http://arxiv.org/abs/2406.11579v1
Date: Mon, 17 Jun 2024 14:16:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-18 14:22:35.882799
Title: Duoduo CLIP: Efficient 3D Understanding with Multi-View Images
Title（参考訳）: Duoduo CLIP: マルチビュー画像による効率的な3D理解
Authors: Han-Hung Lee, Yiming Zhang, Angel X. Chang,
Abstract要約: Duoduo CLIPは、ポイントクラウドではなく、マルチビューイメージから形状エンコーディングを学ぶ3D表現学習のモデルである。マルチビュー画像の選択により、市販のCLIPモデルから2Dプリエントを活用でき、3Dデータによる微調整が容易になる。現在のSOTAポイントクラウドでは、10億のモデルパラメータをトレーニングするのに480A100時間を必要としていますが、57A5000時間と8700万のパラメータしか必要ありません。
参考スコア（独自算出の注目度）: 14.572094389643173
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce Duoduo CLIP, a model for 3D representation learning that learns shape encodings from multi-view images instead of point-clouds. The choice of multi-view images allows us to leverage 2D priors from off-the-shelf CLIP models to facilitate fine-tuning with 3D data. Our approach not only shows better generalization compared to existing point cloud methods, but also reduces GPU requirements and training time. In addition, we modify the model with cross-view attention to leverage information across multiple frames of the object which further boosts performance. Compared to the current SOTA point cloud method that requires 480 A100 hours to train 1 billion model parameters we only require 57 A5000 hours and 87 million parameters. Multi-view images also provide more flexibility in use cases compared to point clouds. This includes being able to encode objects with a variable number of images, with better performance when more views are used. This is in contrast to point cloud based methods, where an entire scan or model of an object is required. We showcase this flexibility with object retrieval from images of real-world objects. Our model also achieves better performance in more fine-grained text to shape retrieval, demonstrating better text-and-shape alignment than point cloud based models.
Abstract（参考訳）: 我々はDuoduo CLIPを紹介した。Duoduo CLIPは3次元表現学習のためのモデルで、ポイントクラウドではなく多視点画像から形状エンコーディングを学習する。マルチビュー画像の選択により、市販のCLIPモデルから2Dプリエントを活用でき、3Dデータによる微調整が容易になる。当社のアプローチは,既存のポイントクラウド手法よりも優れた一般化を示すだけでなく,GPU要件やトレーニング時間を短縮する。さらに、オブジェクトの複数のフレームにまたがる情報を活用するために、クロスビューアテンションでモデルを修正し、パフォーマンスをさらに向上させる。現在のSOTAポイントクラウドでは、10億のモデルパラメータをトレーニングするのに480A100時間を必要としていますが、57A5000時間と8700万のパラメータしか必要ありません。マルチビューイメージは、ポイントクラウドと比較してユースケースの柔軟性も向上する。これには、さまざまな数のイメージでオブジェクトをエンコードすることができ、より多くのビューを使用するとパフォーマンスが向上する。これは、オブジェクトのスキャン全体やモデルが必要なポイントクラウドベースのメソッドとは対照的である。我々は、現実世界の物体の画像からオブジェクトを抽出することで、この柔軟性を示す。また,本モデルでは,よりきめ細かなテキストの形状検索性能も向上し,ポイントクラウドモデルよりもテキストと形状のアライメントが向上した。

関連論文リスト

UniPre3D: Unified Pre-training of 3D Point Cloud Models with Cross-Modal Gaussian Splatting [64.31900521467362]
既存の事前学習方法は、オブジェクトレベルとシーンレベルの両方の点群に対して等しく有効である。 UniPre3Dは,任意のスケールの点群やアーキテクチャの3Dモデルに対してシームレスに適用可能な,最初の統合事前学習手法である。
論文参考訳（メタデータ） (2025-06-11T17:23:21Z)
Cross-Modal Self-Training: Aligning Images and Pointclouds to Learn Classification without Labels [69.55622471172941]
CLIPのような大規模ビジョン2D視覚言語モデルは、一般化可能な(オープン語彙)3D視覚モデルを学ぶために3Dエンコーダと整列することができる。ゼロショット3Dビジョンモデルのラベルなし分類性能を改善するために、クロスモーダル自己訓練(Cross-MoST: Cross-Modal Self-Training)を提案する。
論文参考訳（メタデータ） (2024-04-15T21:30:50Z)
VideoMV: Consistent Multi-View Generation Based on Large Video Generative Model [34.35449902855767]
基本的な2つの質問は、トレーニングに使用するデータと、マルチビューの一貫性を確保する方法です。本稿では,市販のビデオ生成モデルから微調整した,密集した一貫したマルチビュー生成モデルを提案する。我々のアプローチは24の濃密なビューを生成し、最先端のアプローチよりもはるかに高速にトレーニングに収束する。
論文参考訳（メタデータ） (2024-03-18T17:48:15Z)
PF-LRM: Pose-Free Large Reconstruction Model for Joint Pose and Shape Prediction [77.89935657608926]
画像から3Dオブジェクトを再構成するためのPF-LRM(Pose-Free Large Restruction Model)を提案する。 PF-LRMは1つのA100 GPU上で1.3秒で相対カメラのポーズを同時に推定する。
論文参考訳（メタデータ） (2023-11-20T18:57:55Z)
Point Cloud Self-supervised Learning via 3D to Multi-view Masked Autoencoder [21.73287941143304]
Multi-Modality Masked AutoEncoders (MAE) 法は2次元画像と3次元点雲の両方を事前学習に利用している。本稿では、3次元から多視点のマスク付きオートエンコーダを用いて、3次元点雲のマルチモーダル特性をフル活用する手法を提案する。提案手法は,様々な下流タスクにおいて,最先端のタスクよりも大きなマージンで性能を向上する。
論文参考訳（メタデータ） (2023-11-17T22:10:03Z)
ConsistNet: Enforcing 3D Consistency for Multi-view Images Diffusion [61.37481051263816]
本稿では,1つの3Dオブジェクトのイメージが与えられた場合,同じオブジェクトの複数の画像を生成できる手法(ConsistNet)を提案する。凍結したZero123のバックボーン上での3次元の一貫性を効果的に学習し、1つのA100 GPU上で40秒以内でオブジェクトの周囲のビューを生成する。
論文参考訳（メタデータ） (2023-10-16T12:29:29Z)
OpenShape: Scaling Up 3D Shape Representation Towards Open-World Understanding [53.21204584976076]
我々は,テキスト,画像,点雲のマルチモーダルな共同表現を学習するOpenShapeを紹介する。複数の3Dデータセットをアンサンブルすることで、トレーニングデータをスケールアップし、ノイズの多いテキスト記述を自動的にフィルタリングし、強化するためのいくつかの戦略を提案する。ゼロショット3D分類ベンチマークでOpenShapeを評価し,オープンワールド認識の優れた能力を実証した。
論文参考訳（メタデータ） (2023-05-18T07:07:19Z)
Multi-view Vision-Prompt Fusion Network: Can 2D Pre-trained Model Boost 3D Point Cloud Data-scarce Learning? [38.06639044139636]
本研究は,Multi-view Vision-Prompt Fusion Network (MvNet) を提案する。 MvNetは、3Dの複数ショットポイントのクラウドイメージ分類のために、最先端のパフォーマンスを新たに実現している。
論文参考訳（メタデータ） (2023-04-20T11:39:41Z)
CLIP-FO3D: Learning Free Open-world 3D Scene Representations from 2D Dense CLIP [19.66617835750012]
3Dシーン理解モデルのトレーニングには、複雑な人間のアノテーションが必要である。視覚言語による事前学習モデル(例えばCLIP)は、顕著なオープンワールド推論特性を示している。本稿では,CLIPの特徴空間を直接3次元シーン理解モデルに変換することを提案する。
論文参考訳（メタデータ） (2023-03-08T17:30:58Z)
P2P: Tuning Pre-trained Image Models for Point Cloud Analysis with Point-to-Pixel Prompting [94.11915008006483]
本稿では,ポイントクラウド解析のための新しいポイント・ツー・Pixelを提案する。 ScanObjectNNの最も難しい設定では,89.3%の精度が得られる。また,本フレームワークは,ModelNet分類とShapeNet Part Codeで非常に競争力のある性能を示す。
論文参考訳（メタデータ） (2022-08-04T17:59:03Z)
Voint Cloud: Multi-View Point Cloud Representation for 3D Understanding [80.04281842702294]
本稿では,複数の視点から抽出した特徴の集合として,各3次元点を表す多視点クラウド(Voint Cloud)の概念を紹介する。この新しい3次元Vointクラウド表現は、3Dポイントクラウド表現のコンパクト性と、マルチビュー表現の自然なビュー認識性を組み合わせたものである。理論的に確立された機能を持つVointニューラルネットワーク(VointNet)をデプロイし,Voint空間の表現を学習する。
論文参考訳（メタデータ） (2021-11-30T13:08:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。