Fugu-MT 論文翻訳(概要): Group Multi-View Transformer for 3D Shape Analysis with Spatial Encoding

論文の概要: Group Multi-View Transformer for 3D Shape Analysis with Spatial Encoding

arxiv url: http://arxiv.org/abs/2312.16477v2
Date: Sat, 30 Dec 2023 08:21:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-02 19:53:08.110779
Title: Group Multi-View Transformer for 3D Shape Analysis with Spatial Encoding
Title（参考訳）: 空間符号化を用いた3次元形状解析のためのグループマルチビュートランス
Authors: Lixiang Xu, Qingzhe Cui, Richang Hong, Wei Xu, Enhong Chen, Xin Yuan, Chenglong Li, Yuanyan Tang
Abstract要約: 近年,ビューベース3次元形状認識手法の結果は飽和しており,メモリ制限デバイスに優れた性能を持つモデルは展開できない。本稿では,本分野の知識蒸留に基づく圧縮手法を提案し,モデル性能を極力保ちながらパラメータ数を大幅に削減する。具体的には、小型モデルの能力を高めるため、GMViT(Group Multi-view Vision Transformer)と呼ばれる高性能な大型モデルを設計する。 GMViTは、ベンチマークデータセットであるModelNet、ShapeNetCore55、MCBにおいて、優れた3D分類と検索結果を得る。
参考スコア（独自算出の注目度）: 84.69144118699766
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In recent years, the results of view-based 3D shape recognition methods have saturated, and models with excellent performance cannot be deployed on memory-limited devices due to their huge size of parameters. To address this problem, we introduce a compression method based on knowledge distillation for this field, which largely reduces the number of parameters while preserving model performance as much as possible. Specifically, to enhance the capabilities of smaller models, we design a high-performing large model called Group Multi-view Vision Transformer (GMViT). In GMViT, the view-level ViT first establishes relationships between view-level features. Additionally, to capture deeper features, we employ the grouping module to enhance view-level features into group-level features. Finally, the group-level ViT aggregates group-level features into complete, well-formed 3D shape descriptors. Notably, in both ViTs, we introduce spatial encoding of camera coordinates as innovative position embeddings. Furthermore, we propose two compressed versions based on GMViT, namely GMViT-simple and GMViT-mini. To enhance the training effectiveness of the small models, we introduce a knowledge distillation method throughout the GMViT process, where the key outputs of each GMViT component serve as distillation targets. Extensive experiments demonstrate the efficacy of the proposed method. The large model GMViT achieves excellent 3D classification and retrieval results on the benchmark datasets ModelNet, ShapeNetCore55, and MCB. The smaller models, GMViT-simple and GMViT-mini, reduce the parameter size by 8 and 17.6 times, respectively, and improve shape recognition speed by 1.5 times on average, while preserving at least 90% of the classification and retrieval performance.
Abstract（参考訳）: 近年,ビューベース3次元形状認識手法の結果は飽和しており,パラメータが大きすぎるため,メモリ制限デバイスに優れた性能を持つモデルは展開できない。この問題に対処するために,本分野の知識蒸留に基づく圧縮法を紹介し,モデル性能をできるだけ保ちながらパラメータ数を大幅に削減する。具体的には、小型モデルの能力を高めるため、GMViT(Group Multi-view Vision Transformer)と呼ばれる高性能な大型モデルを設計する。 GMViTでは、ビューレベルのViTが最初にビューレベルの機能間の関係を確立する。さらに、より深い機能を捉えるために、グループ化モジュールを使用して、ビューレベルの機能をグループレベルの機能に拡張します。最後に、グループレベルのViTは、グループレベルの特徴を完全な3D形状記述子に集約する。特に,両vitsにおいて,カメラ座標の空間符号化を革新的な位置埋め込みとして導入する。さらに,GMViT-simpleとGMViT-miniの2つの圧縮版を提案する。そこで本研究では,gmvitプロセス全体において,各gmvit成分のキー出力を蒸留対象とする知識蒸留法を提案する。大規模実験により提案手法の有効性が示された。大規模モデルgmvitは、ベンチマークデータセットmodelnet、shapenetcore55、mcbにおいて優れた3d分類および検索結果を達成する。 GMViT-simpleとGMViT-miniは、それぞれパラメータサイズを8倍と17.6倍に削減し、分類と検索性能の少なくとも90%を維持しながら、平均1.5倍の形状認識速度を向上させる。

関連論文リスト

The Quest for Generalizable Motion Generation: Data, Model, and Evaluation [66.57596758773309]
本稿では,ViGenからMoGenへの知識伝達を,データ,モデリング,評価という3つの重要な柱を通じて体系的に行うフレームワークを提案する。まず,228,000個の高品質な動作サンプルからなる大規模データセットViMoGen-228Kを紹介する。第2に,フローマッチングに基づく拡散変換器であるViMoGenを提案する。第3に,動作品質,迅速な忠実度,一般化能力の詳細な評価を目的とした階層型ベンチマークであるMBenchを提案する。
論文参考訳（メタデータ） (2025-10-30T17:59:27Z)
Your ViT is Secretly an Image Segmentation Model [50.71238842539735]
Vision Transformer (ViT) は、様々なコンピュータビジョンタスクにおいて、顕著なパフォーマンスとスケーラビリティを示している。タスク固有のコンポーネントによって導入された帰納バイアスは、代わりにViT自身で学習できることを示す。画像セグメンテーションを行うためにプレーンな ViT アーキテクチャを再利用した Mask Transformer (EoMT) を導入する。
論文参考訳（メタデータ） (2025-03-24T19:56:02Z)
MSCViT: A Small-size ViT architecture with Multi-Scale Self-Attention Mechanism for Tiny Datasets [3.8601741392210434]
Vision Transformer (ViT) は、長距離依存をモデル化する強力な能力のため、様々な視覚タスクにおいて有意義な可能性を証明している。本稿では,マルチスケールの自己認識機構とコンボリューションブロックを備えた小型ViTアーキテクチャを提案する。 CIFAR-100では14.0Mパラメータと2.5GFLOPで84.68%の精度を達成し、大規模なデータセットで事前トレーニングを行わない。
論文参考訳（メタデータ） (2025-01-10T15:18:05Z)
MVGenMaster: Scaling Multi-View Generation from Any Image via 3D Priors Enhanced Diffusion Model [87.71060849866093]
MVGenMasterは3Dプリエントで拡張された多視点拡散モデルであり,NVS(多目的なノベルビュー合成)タスクに対処する。我々のモデルは、可変参照ビューとカメラポーズで条件付けられた100の新しいビューを生成できる、シンプルで効果的なパイプラインを特徴としている。スケールアップデータセットを用いてモデルを強化するために,いくつかのトレーニングとモデル修正を提案する。
論文参考訳（メタデータ） (2024-11-25T07:34:23Z)
Spatially Optimized Compact Deep Metric Learning Model for Similarity Search [1.0015171648915433]
類似性探索は空間的特徴が重要な出力を決定する重要なタスクである。本研究では,コンパクトな畳み込みモデルとともに単一の畳み込み特徴抽出器の層を利用することにより,類似性探索の性能が著しく向上することを示す。
論文参考訳（メタデータ） (2024-04-09T19:49:01Z)
Minimalist and High-Performance Semantic Segmentation with Plain Vision Transformers [10.72362704573323]
トランス層に加えて,3$Times$3の畳み込みのみで構成されるモデルであるPlainSegを導入する。また,階層的特徴の活用を可能にするPlainSeg-Hierを提案する。
論文参考訳（メタデータ） (2023-10-19T14:01:40Z)
Generic-to-Specific Distillation of Masked Autoencoders [119.21281960831651]
マスク付きオートエンコーダによって事前訓練された大型モデルの監督下で, 小型ViTモデルのポテンシャルを活かすため, 汎用型蒸留法(G2SD)を提案する。 G2SDでは、バニラViT-Smallモデルは98.7%、98.1%、99.3%のパフォーマンスを画像分類、オブジェクト検出、セマンティックセグメンテーションのために達成している。
論文参考訳（メタデータ） (2023-02-28T17:13:14Z)
GPViT: A High Resolution Non-Hierarchical Vision Transformer with Group Propagation [25.689520892609213]
本稿では,高分解能特徴を持つ一般視覚認識のための新しい非階層型トランスフォーマーモデルを提案する。画像分類,セマンティックセグメンテーション,オブジェクト検出,インスタンスセグメンテーションなど,さまざまな視覚的タスクにおけるGPViTの評価を行った。
論文参考訳（メタデータ） (2022-12-13T18:26:00Z)
Unleashing Vanilla Vision Transformer with Masked Image Modeling for Object Detection [39.37861288287621]
MIMで事前訓練されたバニラViTは、難しいオブジェクトレベルの認識シナリオで驚くほどうまく機能する。ランダムなコンパクトなコンボリューションステムは、事前訓練された大きなカーネルのパッチフィケーションステムに取って代わる。提案された検出器はMIMDetと呼ばれ、MIMで事前訓練されたバニラVITが2.3ボックスAPと2.5マスクAPで階層スウィントランスより優れた性能を発揮する。
論文参考訳（メタデータ） (2022-04-06T17:59:04Z)
ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。 ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文参考訳（メタデータ） (2022-02-21T10:40:05Z)
Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。 ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文参考訳（メタデータ） (2021-05-17T02:39:22Z)
Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文参考訳（メタデータ） (2021-04-26T13:13:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。