Fugu-MT 論文翻訳(概要): CLIPoint3D: Language-Grounded Few-Shot Unsupervised 3D Point Cloud Domain Adaptation

論文の概要: CLIPoint3D: Language-Grounded Few-Shot Unsupervised 3D Point Cloud Domain Adaptation

arxiv url: http://arxiv.org/abs/2602.20409v1
Date: Mon, 23 Feb 2026 23:17:12 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 17:34:53.547105
Title: CLIPoint3D: Language-Grounded Few-Shot Unsupervised 3D Point Cloud Domain Adaptation
Title（参考訳）: CLIPoint3D:Language-Grounded Few-Shot Unsupervised 3D Point Cloud Domain Adaptation
Authors: Mainak Singha, Sarthak Mehrotra, Paolo Casari, Subhasis Chaudhuri, Elisa Ricci, Biplab Banerjee,
Abstract要約: CLIPoint3Dは、教師なしの3Dポイントクラウドドメイン適応のためのフレームワークである。アプローチでは3Dサンプルを多重深度マップに投影し,凍結したCLIPバックボーンを活用する。 PointDA-10とGraspNetPC-10ベンチマークの実験では、CLIPoint3Dは3-16%の精度向上を達成した。
参考スコア（独自算出の注目度）: 37.2660021156429
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent vision-language models (VLMs) such as CLIP demonstrate impressive cross-modal reasoning, extending beyond images to 3D perception. Yet, these models remain fragile under domain shifts, especially when adapting from synthetic to real-world point clouds. Conventional 3D domain adaptation approaches rely on heavy trainable encoders, yielding strong accuracy but at the cost of efficiency. We introduce CLIPoint3D, the first framework for few-shot unsupervised 3D point cloud domain adaptation built upon CLIP. Our approach projects 3D samples into multiple depth maps and exploits the frozen CLIP backbone, refined through a knowledge-driven prompt tuning scheme that integrates high-level language priors with geometric cues from a lightweight 3D encoder. To adapt task-specific features effectively, we apply parameter-efficient fine-tuning to CLIP's encoders and design an entropy-guided view sampling strategy for selecting confident projections. Furthermore, an optimal transport-based alignment loss and an uncertainty-aware prototype alignment loss collaboratively bridge source-target distribution gaps while maintaining class separability. Extensive experiments on PointDA-10 and GraspNetPC-10 benchmarks show that CLIPoint3D achieves consistent 3-16% accuracy gains over both CLIP-based and conventional encoder-based baselines. Codes are available at https://github.com/SarthakM320/CLIPoint3D.
Abstract（参考訳）: CLIPのような最近の視覚言語モデル(VLM)は、画像を超えて3D知覚まで、印象的なクロスモーダル推論を示している。しかし、これらのモデルはドメインシフトの下でも脆弱であり、特に合成から現実の点雲に適応する場合は脆弱である。従来の3Dドメイン適応手法は重いトレーニング可能なエンコーダに依存しており、精度は高いが効率は高い。私たちはCLIP上に構築された非教師なしの3Dポイントクラウドドメイン適応のための最初のフレームワークであるCLIPoint3Dを紹介します。提案手法では,複数の深度マップに3Dサンプルを投影し,軽量な3Dエンコーダの幾何的キューと高レベル言語先行処理を統合した知識駆動型プロンプトチューニング方式により,冷凍したCLIPバックボーンを活用する。タスク固有の特徴を効果的に適用するために、パラメータ効率の良い微調整をCLIPエンコーダに適用し、確実な投影を選択するためのエントロピー誘導ビューサンプリング戦略を設計する。さらに、クラス分離性を維持しつつ、最適輸送に基づくアライメント損失と、不確実性を考慮したプロトタイプアライメント損失を協調的にブリッジする。 PointDA-10とGraspNetPC-10ベンチマークの大規模な実験により、CLIPoint3DはCLIPベースのベースラインと従来のエンコーダベースのベースラインの両方に対して、一貫した3-16%の精度向上を達成した。コードはhttps://github.com/SarthakM320/CLIPoint3Dで公開されている。

関連論文リスト

Adaptive Point-Prompt Tuning: Fine-Tuning Heterogeneous Foundation Models for 3D Point Cloud Analysis [51.37795317716487]
本稿では,パラメータの少ない事前学習モデルを微調整するAdaptive Point-Prompt Tuning (APPT)法を提案する。局所幾何学を集約することで原点雲を点埋め込みに変換し、空間的特徴を捉える。任意のモダリティのソース領域から3Dへの自己アテンションを校正するために,重みを点埋め込みモジュールと共有するプロンプトジェネレータを導入する。
論文参考訳（メタデータ） (2025-08-30T06:02:21Z)
TriCLIP-3D: A Unified Parameter-Efficient Framework for Tri-Modal 3D Visual Grounding based on CLIP [52.79100775328595]
3Dビジュアルグラウンドティングは、人間の指示に基づいて現実世界の3D環境における視覚情報を理解するための具体的エージェントである。既存の3Dビジュアルグラウンド法は、異なるモダリティの異なるエンコーダに依存している。本稿では,3つのモードすべてを処理するために,統合された2次元事前学習型マルチモーダルネットワークを提案する。
論文参考訳（メタデータ） (2025-07-20T10:28:06Z)
On Geometry-Enhanced Parameter-Efficient Fine-Tuning for 3D Scene Segmentation [52.96632954620623]
本稿では3Dポイント・クラウド・トランス用に設計された新しい幾何対応PEFTモジュールを提案する。当社のアプローチでは,大規模3Dポイントクラウドモデルの効率的,スケーラブル,かつ幾何を考慮した微調整のための新しいベンチマークを設定している。
論文参考訳（メタデータ） (2025-05-28T15:08:36Z)
CLIP-GS: Unifying Vision-Language Representation with 3D Gaussian Splatting [88.24743308058441]
3DGSを基盤とした新しいマルチモーダル表現学習フレームワークであるCLIP-GSを提案する。我々は,3DGS,画像,テキストの三重項を生成する効率的な方法を開発し,CLIP-GSによるマルチモーダル表現の学習を容易にする。
論文参考訳（メタデータ） (2024-12-26T09:54:25Z)
Transferring CLIP's Knowledge into Zero-Shot Point Cloud Semantic Segmentation [17.914290294935427]
従来の3Dセグメンテーション手法では、トレーニングセットに現れる一定の範囲のクラスしか認識できない。 CLIPのような大規模ビジュアル言語事前訓練モデルでは、ゼロショット2Dビジョンタスクにおいて、その一般化能力を示している。本稿では,CLIPが入力する視覚言語知識をクラウドエンコーダに転送するための,シンプルで効果的なベースラインを提案する。
論文参考訳（メタデータ） (2023-12-12T12:35:59Z)
DiffCLIP: Leveraging Stable Diffusion for Language Grounded 3D Classification [19.40810553327253]
本稿では、視覚枝の領域ギャップを最小限に抑えるために、制御ネットとの安定拡散を取り入れた新しい事前学習フレームワークであるDiffCLIPを提案する。 ModelNet10、ModelNet40、ScanObjectNNデータセットの実験は、DiffCLIPが3D理解に強力な能力を持っていることを示している。
論文参考訳（メタデータ） (2023-05-25T11:55:38Z)
CLIP2Scene: Towards Label-efficient 3D Scene Understanding by CLIP [55.864132158596206]
Contrastive Language-Image Pre-Training (CLIP) は、2次元ゼロショットおよび少数ショット学習において有望な結果をもたらす。私たちは,CLIP知識が3Dシーン理解にどう役立つか,最初の試みを行う。筆者らは,CLIPの知識を2次元画像テキスト事前学習モデルから3次元ポイント・クラウド・ネットワークに転送するフレームワークであるCLIP2Sceneを提案する。
論文参考訳（メタデータ） (2023-01-12T10:42:39Z)
CLIP2Point: Transfer CLIP to Point Cloud Classification with Image-Depth Pre-training [121.46758260964114]
3Dビジョンと言語を横断する事前トレーニングは、限られたトレーニングデータのため、まだ開発中である。近年の研究では、視覚言語による事前学習モデルから3次元視覚への変換が試みられている。 PointCLIPは、ポイントクラウドデータを多視点深度マップに変換し、形状分類にCLIPを採用する。本稿では,CLIPを3次元領域に転送するためのコントラスト学習による画像深度事前学習手法であるCLIP2Pointを提案する。
論文参考訳（メタデータ） (2022-10-03T16:13:14Z)
3DVerifier: Efficient Robustness Verification for 3D Point Cloud Models [17.487852393066458]
既存のポイントクラウドモデルの検証手法は,大規模ネットワーク上で時間的・計算的に実現不可能である。本稿では,2つの問題に対処する3DVerifierを提案し,線形緩和関数を適用して乗算層を結合し,前方と後方の伝搬を結合する。提案手法は,大規模ネットワークにおける検証効率のオーダー・オブ・マグニチュード向上を実現し,得られた認証境界も最先端の検証器よりもかなり厳密である。
論文参考訳（メタデータ） (2022-07-15T15:31:16Z)
PointCLIP: Point Cloud Understanding by CLIP [77.02399444893963]
本稿では,CLIP符号化点クラウドと3Dカテゴリテキストのアライメントを行うPointCLIPを提案する。 PointCLIPは、リソースコストとデータレシエーションの低いCLIPによる効果的な3Dポイントクラウド理解のための、有望な代替手段である。
論文参考訳（メタデータ） (2021-12-04T19:42:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。