Fugu-MT 論文翻訳(概要): Point Clouds Are Specialized Images: A Knowledge Transfer Approach for 3D Understanding

論文の概要: Point Clouds Are Specialized Images: A Knowledge Transfer Approach for 3D Understanding

arxiv url: http://arxiv.org/abs/2307.15569v2
Date: Tue, 23 Apr 2024 04:08:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-24 20:14:41.017033
Title: Point Clouds Are Specialized Images: A Knowledge Transfer Approach for 3D Understanding
Title（参考訳）: 点雲は特殊化画像である:3次元理解のための知識伝達アプローチ
Authors: Jiachen Kang, Wenjing Jia, Xiangjian He, Kin Man Lam,
Abstract要約: 自己教師付き表現学習(SSRL)は、ポイントクラウド理解において注目を集めている。本稿では,点雲を「特殊化画像」として再解釈する新しいSSRL手法であるPCExpertを提案する。
参考スコア（独自算出の注目度）: 13.030306154575143
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Self-supervised representation learning (SSRL) has gained increasing attention in point cloud understanding, in addressing the challenges posed by 3D data scarcity and high annotation costs. This paper presents PCExpert, a novel SSRL approach that reinterprets point clouds as "specialized images". This conceptual shift allows PCExpert to leverage knowledge derived from large-scale image modality in a more direct and deeper manner, via extensively sharing the parameters with a pre-trained image encoder in a multi-way Transformer architecture. The parameter sharing strategy, combined with a novel pretext task for pre-training, i.e., transformation estimation, empowers PCExpert to outperform the state of the arts in a variety of tasks, with a remarkable reduction in the number of trainable parameters. Notably, PCExpert's performance under LINEAR fine-tuning (e.g., yielding a 90.02% overall accuracy on ScanObjectNN) has already approached the results obtained with FULL model fine-tuning (92.66%), demonstrating its effective and robust representation capability.
Abstract（参考訳）: 自己教師付き表現学習(SSRL)は,3次元データ不足と高アノテーションコストによる課題に対処するため,ポイントクラウド理解において注目を集めている。本稿では,点雲を「特殊化画像」として再解釈する新しいSSRL手法であるPCExpertを提案する。この概念シフトにより、PCExpertは、マルチウェイトランスフォーマーアーキテクチャでトレーニング済みの画像エンコーダとパラメータを広範囲に共有することで、大規模画像モダリティから派生した知識をより直接的、より深く活用することができる。パラメータ共有戦略は、事前学習のための新しいプレテキストタスク、すなわち変換推定と組み合わせて、PCExpertが様々なタスクで最先端のタスクを上回り、トレーニング可能なパラメータの数が大幅に減少する。特に、LINEARファインチューニング(例えば、ScanObjectNNの90.02%の精度)におけるPCExpertのパフォーマンスは、FULLモデルファインチューニング(92.66%)の結果にすでにアプローチしており、その効果的で堅牢な表現能力を実証している。

関連論文リスト

MuSASplat: Efficient Sparse-View 3D Gaussian Splats via Lightweight Multi-Scale Adaptation [92.57609195819647]
MuSASplatは、ポーズなしフィードフォワード3Dガウスモデルの計算負担を劇的に削減する新しいフレームワークである。我々のアプローチの中心は、ほんのわずかなトレーニングパラメータだけで、ViTベースのアーキテクチャを効率的に微調整できる軽量なマルチスケールアダプタである。
論文参考訳（メタデータ） (2025-12-08T04:56:46Z)
Knowledge-Informed Neural Network for Complex-Valued SAR Image Recognition [51.03674130115878]
本稿では,新しい「圧縮集約圧縮」アーキテクチャ上に構築された軽量なフレームワークであるKnowledge-Informed Neural Network(KINN)を紹介する。 KINNはパラメータ効率の認識における最先端を確立し、データスカースとアウト・オブ・ディストリビューションのシナリオにおいて例外的な一般化を提供する。
論文参考訳（メタデータ） (2025-10-23T07:12:26Z)
Distillation of Diffusion Features for Semantic Correspondence [23.54555663670558]
本稿では,効率の低下を克服する新しい知識蒸留手法を提案する。本稿では,2つの大きな視覚基盤モデルを用いて,これらの補足モデルの性能を,計算コストの低減で高精度に維持する1つの小さなモデルに蒸留する方法を示す。実験結果から,3次元データ拡張による蒸留モデルにより,計算負荷を大幅に削減し,セマンティックビデオ対応などの実世界のアプリケーションの実現性を向上させるとともに,現在の最先端手法よりも優れた性能が得られることが示された。
論文参考訳（メタデータ） (2024-12-04T17:55:33Z)
GS-PT: Exploiting 3D Gaussian Splatting for Comprehensive Point Cloud Understanding via Self-supervised Learning [15.559369116540097]
ポイントクラウドの自己教師型学習は、ラベルのない3Dデータを活用して、手動のアノテーションに頼ることなく意味のある表現を学習することを目的としている。本稿では,3Dガウススプラッティング(3DGS)をポイントクラウドの自己教師型学習に初めて統合したGS-PTを提案する。我々のパイプラインは、トランスフォーマーを自己教師付き事前学習のバックボーンとして利用し、3DGSによる新しいコントラスト学習タスクを導入している。
論文参考訳（メタデータ） (2024-09-08T03:46:47Z)
Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文参考訳（メタデータ） (2024-05-30T05:53:49Z)
ELiTe: Efficient Image-to-LiDAR Knowledge Transfer for Semantic Segmentation [15.404188754049317]
クロスモーダルな知識伝達は、LiDARセマンティックセグメンテーションにおけるポイントクラウド表現学習を強化する。その可能性にもかかわらず、テキスタイルの教師の挑戦は、反復的で異種でない車のカメラ画像と、不正確な地上の真実のラベルによって生じる。本稿では,この問題を解決するために,効率的な画像からLiDARへの知識伝達(ELiTe)パラダイムを提案する。
論文参考訳（メタデータ） (2024-05-07T08:44:13Z)
Leveraging Representations from Intermediate Encoder-blocks for Synthetic Image Detection [13.840950434728533]
SID(State-of-the-art Synthetic Image Detection)研究は、基礎モデルからの特徴抽出の利点を強く証明している。軽量ネットワークを介してCLIPの画像エンコーダの中間トランスフォーマーブロックから抽出した画像表現を利用する。本手法は,20個のテストデータセットで評価し,平均+10.6%の絶対性能向上を示すことにより,最先端の手法と比較した。
論文参考訳（メタデータ） (2024-02-29T12:18:43Z)
Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文参考訳（メタデータ） (2023-12-24T08:42:37Z)
Efficient-3DiM: Learning a Generalizable Single-image Novel-view Synthesizer in One Day [63.96075838322437]
シングルイメージのノベルビューシンセサイザーを学習するためのフレームワークを提案する。当社のフレームワークは,トレーニング時間を10日以内から1日未満に短縮することが可能です。
論文参考訳（メタデータ） (2023-10-04T17:57:07Z)
Let Images Give You More:Point Cloud Cross-Modal Training for Shape Analysis [43.13887916301742]
本稿では、ポイントクラウド分析を促進するために、シンプルだが効果的なポイントクラウドクロスモダリティトレーニング(PointCMT)戦略を導入する。ビューイメージから補助的知識を効果的に獲得するために,教師学生のための枠組みを開発し,知識蒸留問題としてクロスモーダル学習を定式化する。我々は、魅力的なバックボーン、すなわちPointCMT、PointNet++、PointMLPを備えた様々なデータセットにおいて、大きな利益を検証した。
論文参考訳（メタデータ） (2022-10-09T09:35:22Z)
P2P: Tuning Pre-trained Image Models for Point Cloud Analysis with Point-to-Pixel Prompting [94.11915008006483]
本稿では,ポイントクラウド解析のための新しいポイント・ツー・Pixelを提案する。 ScanObjectNNの最も難しい設定では,89.3%の精度が得られる。また,本フレームワークは,ModelNet分類とShapeNet Part Codeで非常に競争力のある性能を示す。
論文参考訳（メタデータ） (2022-08-04T17:59:03Z)
Revisiting Point Cloud Simplification: A Learnable Feature Preserving Approach [57.67932970472768]
MeshとPoint Cloudの単純化手法は、3Dモデルの複雑さを低減しつつ、視覚的品質と関連する健全な機能を維持することを目的としている。そこで本研究では,正解点の標本化を学習し,高速点雲の簡易化手法を提案する。提案手法は、入力空間から任意のユーザ定義の点数を選択し、視覚的知覚誤差を最小限に抑えるために、その位置を再配置するよう訓練されたグラフニューラルネットワークアーキテクチャに依存する。
論文参考訳（メタデータ） (2021-09-30T10:23:55Z)
Learning Deformable Image Registration from Optimization: Perspective, Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文参考訳（メタデータ） (2020-04-30T03:23:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。