論文の概要: PEVA-Net: Prompt-Enhanced View Aggregation Network for Zero/Few-Shot Multi-View 3D Shape Recognition
- arxiv url: http://arxiv.org/abs/2404.19168v1
- Date: Tue, 30 Apr 2024 00:16:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 15:53:21.652342
- Title: PEVA-Net: Prompt-Enhanced View Aggregation Network for Zero/Few-Shot Multi-View 3D Shape Recognition
- Title(参考訳): PEVA-Net:Zero/Few-Shot Multi-View 3D Shape Recognitionのためのプロンプト強化ビューアグリゲーションネットワーク
- Authors: Dongyun Lin, Yi Cheng, Shangbo Mao, Aiyuan Guo, Yiqun Li,
- Abstract要約: 我々は、ゼロ/フェーショットの3D形状認識に対処するために、大きな視覚言語モデルであるCLIPを活用することに重点を置いている。
本稿では,0/fwショット3D形状認識を同時に行うために,Prompt-Enhanced View Aggregation Network (PEVA-Net)を提案する。
- 参考スコア(独自算出の注目度): 8.15444057380305
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large vision-language models have impressively promote the performance of 2D visual recognition under zero/few-shot scenarios. In this paper, we focus on exploiting the large vision-language model, i.e., CLIP, to address zero/few-shot 3D shape recognition based on multi-view representations. The key challenge for both tasks is to generate a discriminative descriptor of the 3D shape represented by multiple view images under the scenarios of either without explicit training (zero-shot 3D shape recognition) or training with a limited number of data (few-shot 3D shape recognition). We analyze that both tasks are relevant and can be considered simultaneously. Specifically, leveraging the descriptor which is effective for zero-shot inference to guide the tuning of the aggregated descriptor under the few-shot training can significantly improve the few-shot learning efficacy. Hence, we propose Prompt-Enhanced View Aggregation Network (PEVA-Net) to simultaneously address zero/few-shot 3D shape recognition. Under the zero-shot scenario, we propose to leverage the prompts built up from candidate categories to enhance the aggregation process of multiple view-associated visual features. The resulting aggregated feature serves for effective zero-shot recognition of the 3D shapes. Under the few-shot scenario, we first exploit a transformer encoder to aggregate the view-associated visual features into a global descriptor. To tune the encoder, together with the main classification loss, we propose a self-distillation scheme via a feature distillation loss by treating the zero-shot descriptor as the guidance signal for the few-shot descriptor. This scheme can significantly enhance the few-shot learning efficacy.
- Abstract(参考訳): 大規模な視覚言語モデルは、ゼロ/フェーショットシナリオ下での2次元視覚認識の性能を著しく向上させてきた。
本稿では,多視点表現に基づくゼロ/フェーショット3次元形状認識を実現するために,大規模視覚言語モデルであるCLIPを活用することに焦点を当てる。
両タスクの鍵となる課題は、明示的な訓練(ゼロショット3D形状認識)や限られた数のデータ(フェーショット3D形状認識)を伴わないシナリオにおいて、複数のビューイメージで表現される3次元形状の識別記述子を生成することである。
両タスクが関連性があり,同時に検討可能であることを解析する。
具体的には、ゼロショット推論に有効なデクリプタを活用して、数発のトレーニングで集約されたデクリプタのチューニングをガイドすることにより、数発の学習効率を大幅に向上させることができる。
そこで我々は,0/fwショットの3D形状認識を同時に行うために,Prompt-Enhanced View Aggregation Network (PEVA-Net)を提案する。
ゼロショットのシナリオでは、候補カテゴリから構築されたプロンプトを活用し、複数のビュー関連視覚特徴の集約プロセスを強化する。
集約された特徴は、3D形状を効果的にゼロショット認識するのに役立ちます。
数ショットのシナリオでは、まずトランスフォーマーエンコーダを使用して、ビュー関連視覚的特徴をグローバルな記述子に集約する。
エンコーダを主分類損失とともに調整するために,ゼロショットディスクリプタを少数ショットディスクリプタの誘導信号として扱うことにより,特徴蒸留損失による自己蒸留方式を提案する。
このスキームは、数発の学習効率を大幅に向上させることができる。
関連論文リスト
- Cohere3D: Exploiting Temporal Coherence for Unsupervised Representation
Learning of Vision-based Autonomous Driving [73.3702076688159]
本稿では,コヒーレントなインスタンス表現を長期入力シーケンスで学習するための,新しいコントラスト学習アルゴリズムであるCohere3Dを提案する。
我々は,様々な下流認識,予測,計画タスクにおいて,事前学習したモデルを微調整することにより,アルゴリズムを評価する。
論文 参考訳(メタデータ) (2024-02-23T19:43:01Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - Renderers are Good Zero-Shot Representation Learners: Exploring
Diffusion Latents for Metric Learning [1.0152838128195467]
我々はShap-Eの潜伏空間の計量学習特性を測定するためのプロキシとして検索を利用する。
その結果,Shap-E表現は従来のEfficientNetベースライン表現のゼロショットよりも優れていた。
これらの結果から、3Dベースのレンダリングと生成モデルにより、自然界における識別的タスクに有用な表現が得られることが示唆された。
論文 参考訳(メタデータ) (2023-06-19T06:41:44Z) - PartSLIP: Low-Shot Part Segmentation for 3D Point Clouds via Pretrained
Image-Language Models [56.324516906160234]
一般化可能な3D部分分割は重要だが、ビジョンとロボティクスでは難しい。
本稿では,事前学習した画像言語モデルGLIPを利用して,3次元点雲の低ショット部分分割法を提案する。
我々は2Dから3Dへの豊富な知識を、ポイントクラウドレンダリングにおけるGLIPに基づく部分検出と新しい2D-to-3Dラベルリフトアルゴリズムにより転送する。
論文 参考訳(メタデータ) (2022-12-03T06:59:01Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - Voint Cloud: Multi-View Point Cloud Representation for 3D Understanding [80.04281842702294]
本稿では,複数の視点から抽出した特徴の集合として,各3次元点を表す多視点クラウド(Voint Cloud)の概念を紹介する。
この新しい3次元Vointクラウド表現は、3Dポイントクラウド表現のコンパクト性と、マルチビュー表現の自然なビュー認識性を組み合わせたものである。
理論的に確立された機能を持つVointニューラルネットワーク(VointNet)をデプロイし,Voint空間の表現を学習する。
論文 参考訳(メタデータ) (2021-11-30T13:08:19Z) - Vis2Mesh: Efficient Mesh Reconstruction from Unstructured Point Clouds
of Large Scenes with Learned Virtual View Visibility [17.929307870456416]
非構造点雲からのメッシュ再構築のための新しいフレームワークを提案する。
仮想ビューと従来のグラフカットベースのメッシュ生成において、学習した3Dポイントの可視性を活用します。
論文 参考訳(メタデータ) (2021-08-18T20:28:16Z) - End-to-End Learning Local Multi-view Descriptors for 3D Point Clouds [67.27510166559563]
3Dポイントクラウドのためのローカルなマルチビュー記述子を学習するためのエンドツーエンドフレームワークを提案する。
本手法は,既存の局所記述子を定量的かつ定性的に上回る。
論文 参考訳(メタデータ) (2020-03-12T15:41:34Z) - MANet: Multimodal Attention Network based Point- View fusion for 3D
Shape Recognition [0.5371337604556311]
本稿では3次元形状認識のためのマルチモーダルアテンション機構に基づく融合ネットワークを提案する。
マルチビューデータの制限を考慮すると,グローバルなポイントクラウド機能を用いてマルチビュー機能をフィルタリングするソフトアテンション方式を導入する。
より具体的には、各マルチビュー画像の全体形状認識への寄与をマイニングすることにより、拡張されたマルチビュー特徴を得る。
論文 参考訳(メタデータ) (2020-02-28T07:00:14Z) - Learning and Matching Multi-View Descriptors for Registration of Point
Clouds [48.25586496457587]
まず,複数視点の画像から学習した多視点局所記述子を3次元キーポイント記述のために提案する。
そこで我々は,効率的な推論に基づいて,外乱マッチングを拒否することを目的とした,ロバストなマッチング手法を開発した。
我々は、パブリックスキャンとマルチビューステレオデータセットの登録に対する我々のアプローチの強化を実証した。
論文 参考訳(メタデータ) (2018-07-16T01:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。