論文の概要: Point Clouds Are Specialized Images: A Knowledge Transfer Approach for
3D Understanding
- arxiv url: http://arxiv.org/abs/2307.15569v1
- Date: Fri, 28 Jul 2023 14:04:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-31 12:25:21.953887
- Title: Point Clouds Are Specialized Images: A Knowledge Transfer Approach for
3D Understanding
- Title(参考訳): 点雲は特殊画像である:3次元理解のための知識伝達アプローチ
- Authors: Jiachen Kang, Wenjing Jia, Xiangjian He, Kin Man Lam
- Abstract要約: 自己教師付き表現学習(SSRL)は、ポイントクラウド理解において注目を集めている。
本稿では,点雲を「特殊化画像」として再解釈する新しいSSRL手法であるPCExpertを提案する。
- 参考スコア(独自算出の注目度): 19.85505690488719
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised representation learning (SSRL) has gained increasing
attention in point cloud understanding, in addressing the challenges posed by
3D data scarcity and high annotation costs. This paper presents PCExpert, a
novel SSRL approach that reinterprets point clouds as "specialized images".
This conceptual shift allows PCExpert to leverage knowledge derived from
large-scale image modality in a more direct and deeper manner, via extensively
sharing the parameters with a pre-trained image encoder in a multi-way
Transformer architecture. The parameter sharing strategy, combined with a novel
pretext task for pre-training, i.e., transformation estimation, empowers
PCExpert to outperform the state of the arts in a variety of tasks, with a
remarkable reduction in the number of trainable parameters. Notably, PCExpert's
performance under LINEAR fine-tuning (e.g., yielding a 90.02% overall accuracy
on ScanObjectNN) has already approached the results obtained with FULL model
fine-tuning (92.66%), demonstrating its effective and robust representation
capability.
- Abstract(参考訳): 自己教師付き表現学習(SSRL)は,3次元データ不足と高アノテーションコストによる課題に対処するため,ポイントクラウド理解において注目を集めている。
本稿では,点雲を「特殊化画像」として再解釈する新しいSSRL手法であるPCExpertを提案する。
この概念シフトにより、PCExpertは、マルチウェイトランスフォーマーアーキテクチャでトレーニング済みの画像エンコーダとパラメータを広範囲に共有することで、大規模画像モダリティから派生した知識をより直接的、より深く活用することができる。
パラメータ共有戦略と、事前学習のための新しいプリテキストタスク、すなわち変換推定とを組み合わせることで、pcexpertは、トレーニング可能なパラメータの数を著しく削減しながら、さまざまなタスクで芸術の状態を上回らせることができる。
特に、LINEARファインチューニング(例えば、ScanObjectNNの90.02%の精度)におけるPCExpertのパフォーマンスは、FULLモデルファインチューニング(92.66%)の結果にすでにアプローチしており、その効果的で堅牢な表現能力を示している。
関連論文リスト
- GS-PT: Exploiting 3D Gaussian Splatting for Comprehensive Point Cloud Understanding via Self-supervised Learning [15.559369116540097]
ポイントクラウドの自己教師型学習は、ラベルのない3Dデータを活用して、手動のアノテーションに頼ることなく意味のある表現を学習することを目的としている。
本稿では,3Dガウススプラッティング(3DGS)をポイントクラウドの自己教師型学習に初めて統合したGS-PTを提案する。
我々のパイプラインは、トランスフォーマーを自己教師付き事前学習のバックボーンとして利用し、3DGSによる新しいコントラスト学習タスクを導入している。
論文 参考訳(メタデータ) (2024-09-08T03:46:47Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - ELiTe: Efficient Image-to-LiDAR Knowledge Transfer for Semantic Segmentation [15.404188754049317]
クロスモーダルな知識伝達は、LiDARセマンティックセグメンテーションにおけるポイントクラウド表現学習を強化する。
その可能性にもかかわらず、テキスタイルの教師の挑戦は、反復的で異種でない車のカメラ画像と、不正確な地上の真実のラベルによって生じる。
本稿では,この問題を解決するために,効率的な画像からLiDARへの知識伝達(ELiTe)パラダイムを提案する。
論文 参考訳(メタデータ) (2024-05-07T08:44:13Z) - Leveraging Representations from Intermediate Encoder-blocks for Synthetic Image Detection [13.840950434728533]
SID(State-of-the-art Synthetic Image Detection)研究は、基礎モデルからの特徴抽出の利点を強く証明している。
軽量ネットワークを介してCLIPの画像エンコーダの中間トランスフォーマーブロックから抽出した画像表現を利用する。
本手法は,20個のテストデータセットで評価し,平均+10.6%の絶対性能向上を示すことにより,最先端の手法と比較した。
論文 参考訳(メタデータ) (2024-02-29T12:18:43Z) - Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - Efficient-3DiM: Learning a Generalizable Single-image Novel-view
Synthesizer in One Day [63.96075838322437]
シングルイメージのノベルビューシンセサイザーを学習するためのフレームワークを提案する。
当社のフレームワークは,トレーニング時間を10日以内から1日未満に短縮することが可能です。
論文 参考訳(メタデータ) (2023-10-04T17:57:07Z) - Let Images Give You More:Point Cloud Cross-Modal Training for Shape
Analysis [43.13887916301742]
本稿では、ポイントクラウド分析を促進するために、シンプルだが効果的なポイントクラウドクロスモダリティトレーニング(PointCMT)戦略を導入する。
ビューイメージから補助的知識を効果的に獲得するために,教師学生のための枠組みを開発し,知識蒸留問題としてクロスモーダル学習を定式化する。
我々は、魅力的なバックボーン、すなわちPointCMT、PointNet++、PointMLPを備えた様々なデータセットにおいて、大きな利益を検証した。
論文 参考訳(メタデータ) (2022-10-09T09:35:22Z) - P2P: Tuning Pre-trained Image Models for Point Cloud Analysis with
Point-to-Pixel Prompting [94.11915008006483]
本稿では,ポイントクラウド解析のための新しいポイント・ツー・Pixelを提案する。
ScanObjectNNの最も難しい設定では,89.3%の精度が得られる。
また,本フレームワークは,ModelNet分類とShapeNet Part Codeで非常に競争力のある性能を示す。
論文 参考訳(メタデータ) (2022-08-04T17:59:03Z) - Revisiting Point Cloud Simplification: A Learnable Feature Preserving
Approach [57.67932970472768]
MeshとPoint Cloudの単純化手法は、3Dモデルの複雑さを低減しつつ、視覚的品質と関連する健全な機能を維持することを目的としている。
そこで本研究では,正解点の標本化を学習し,高速点雲の簡易化手法を提案する。
提案手法は、入力空間から任意のユーザ定義の点数を選択し、視覚的知覚誤差を最小限に抑えるために、その位置を再配置するよう訓練されたグラフニューラルネットワークアーキテクチャに依存する。
論文 参考訳(メタデータ) (2021-09-30T10:23:55Z) - Learning Deformable Image Registration from Optimization: Perspective,
Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。
我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文 参考訳(メタデータ) (2020-04-30T03:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。