論文の概要: Point Clouds Are Specialized Images: A Knowledge Transfer Approach for 3D Understanding
- arxiv url: http://arxiv.org/abs/2307.15569v2
- Date: Tue, 23 Apr 2024 04:08:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 20:14:41.017033
- Title: Point Clouds Are Specialized Images: A Knowledge Transfer Approach for 3D Understanding
- Title(参考訳): 点雲は特殊化画像である:3次元理解のための知識伝達アプローチ
- Authors: Jiachen Kang, Wenjing Jia, Xiangjian He, Kin Man Lam,
- Abstract要約: 自己教師付き表現学習(SSRL)は、ポイントクラウド理解において注目を集めている。
本稿では,点雲を「特殊化画像」として再解釈する新しいSSRL手法であるPCExpertを提案する。
- 参考スコア(独自算出の注目度): 13.030306154575143
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised representation learning (SSRL) has gained increasing attention in point cloud understanding, in addressing the challenges posed by 3D data scarcity and high annotation costs. This paper presents PCExpert, a novel SSRL approach that reinterprets point clouds as "specialized images". This conceptual shift allows PCExpert to leverage knowledge derived from large-scale image modality in a more direct and deeper manner, via extensively sharing the parameters with a pre-trained image encoder in a multi-way Transformer architecture. The parameter sharing strategy, combined with a novel pretext task for pre-training, i.e., transformation estimation, empowers PCExpert to outperform the state of the arts in a variety of tasks, with a remarkable reduction in the number of trainable parameters. Notably, PCExpert's performance under LINEAR fine-tuning (e.g., yielding a 90.02% overall accuracy on ScanObjectNN) has already approached the results obtained with FULL model fine-tuning (92.66%), demonstrating its effective and robust representation capability.
- Abstract(参考訳): 自己教師付き表現学習(SSRL)は,3次元データ不足と高アノテーションコストによる課題に対処するため,ポイントクラウド理解において注目を集めている。
本稿では,点雲を「特殊化画像」として再解釈する新しいSSRL手法であるPCExpertを提案する。
この概念シフトにより、PCExpertは、マルチウェイトランスフォーマーアーキテクチャでトレーニング済みの画像エンコーダとパラメータを広範囲に共有することで、大規模画像モダリティから派生した知識をより直接的、より深く活用することができる。
パラメータ共有戦略は、事前学習のための新しいプレテキストタスク、すなわち変換推定と組み合わせて、PCExpertが様々なタスクで最先端のタスクを上回り、トレーニング可能なパラメータの数が大幅に減少する。
特に、LINEARファインチューニング(例えば、ScanObjectNNの90.02%の精度)におけるPCExpertのパフォーマンスは、FULLモデルファインチューニング(92.66%)の結果にすでにアプローチしており、その効果的で堅牢な表現能力を実証している。
関連論文リスト
- Leveraging Representations from Intermediate Encoder-blocks for
Synthetic Image Detection [16.351249405847863]
SID(State-of-the-art Synthetic Image Detection)研究は、基礎モデルからの特徴抽出の利点を強く証明している。
軽量ネットワークを介してCLIPの画像エンコーダの中間トランスフォーマーブロックから抽出した画像表現を利用する。
本手法は,20個のテストデータセットで評価し,平均+10.6%の絶対性能向上を示すことにより,最先端の手法と比較した。
論文 参考訳(メタデータ) (2024-02-29T12:18:43Z) - Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - HawkI: Homography & Mutual Information Guidance for 3D-free Single Image to Aerial View [67.8213192993001]
本稿では,テキストと模範画像から空中視像を合成するためのHawkeIを提案する。
HawkIは、予め訓練されたテキストから2次元の安定拡散モデルに入力画像からの視覚的特徴をブレンドする。
推測において、HawkeIは、入力画像の意味的詳細を忠実に複製するために生成されたイメージを操るために、ユニークな相互情報ガイダンスの定式化を用いる。
論文 参考訳(メタデータ) (2023-11-27T01:41:25Z) - Efficient-3DiM: Learning a Generalizable Single-image Novel-view
Synthesizer in One Day [63.96075838322437]
シングルイメージのノベルビューシンセサイザーを学習するためのフレームワークを提案する。
当社のフレームワークは,トレーニング時間を10日以内から1日未満に短縮することが可能です。
論文 参考訳(メタデータ) (2023-10-04T17:57:07Z) - MOCA: Self-supervised Representation Learning by Predicting Masked
Online Codebook Assignments [48.67345147676275]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
相乗的, 計算効率の両パラダイムを効果的に活用する方法を示す。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - Training on Thin Air: Improve Image Classification with Generated Data [28.96941414724037]
Diffusion Inversionは、画像分類のための多種多様な高品質なトレーニングデータを生成するための、シンプルで効果的な方法である。
提案手法は,元のデータ分布を捕捉し,画像を安定拡散の潜在空間に反転させることにより,データカバレッジを確保する。
生成した画像が元のデータセットに取って代わることに成功した3つの重要なコンポーネントを特定します。
論文 参考訳(メタデータ) (2023-05-24T16:33:02Z) - Let Images Give You More:Point Cloud Cross-Modal Training for Shape
Analysis [43.13887916301742]
本稿では、ポイントクラウド分析を促進するために、シンプルだが効果的なポイントクラウドクロスモダリティトレーニング(PointCMT)戦略を導入する。
ビューイメージから補助的知識を効果的に獲得するために,教師学生のための枠組みを開発し,知識蒸留問題としてクロスモーダル学習を定式化する。
我々は、魅力的なバックボーン、すなわちPointCMT、PointNet++、PointMLPを備えた様々なデータセットにおいて、大きな利益を検証した。
論文 参考訳(メタデータ) (2022-10-09T09:35:22Z) - P2P: Tuning Pre-trained Image Models for Point Cloud Analysis with
Point-to-Pixel Prompting [94.11915008006483]
本稿では,ポイントクラウド解析のための新しいポイント・ツー・Pixelを提案する。
ScanObjectNNの最も難しい設定では,89.3%の精度が得られる。
また,本フレームワークは,ModelNet分類とShapeNet Part Codeで非常に競争力のある性能を示す。
論文 参考訳(メタデータ) (2022-08-04T17:59:03Z) - Revisiting Point Cloud Simplification: A Learnable Feature Preserving
Approach [57.67932970472768]
MeshとPoint Cloudの単純化手法は、3Dモデルの複雑さを低減しつつ、視覚的品質と関連する健全な機能を維持することを目的としている。
そこで本研究では,正解点の標本化を学習し,高速点雲の簡易化手法を提案する。
提案手法は、入力空間から任意のユーザ定義の点数を選択し、視覚的知覚誤差を最小限に抑えるために、その位置を再配置するよう訓練されたグラフニューラルネットワークアーキテクチャに依存する。
論文 参考訳(メタデータ) (2021-09-30T10:23:55Z) - Learning Deformable Image Registration from Optimization: Perspective,
Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。
我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文 参考訳(メタデータ) (2020-04-30T03:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。