論文の概要: ViewFormer: View Set Attention for Multi-view 3D Shape Understanding
- arxiv url: http://arxiv.org/abs/2305.00161v1
- Date: Sat, 29 Apr 2023 03:58:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 16:50:46.696510
- Title: ViewFormer: View Set Attention for Multi-view 3D Shape Understanding
- Title(参考訳): ViewFormer:多視点3次元形状理解のためのビューセット注意
- Authors: Hongyu Sun, Yongcai Wang, Peng Wang, Xudong Cai, Deying Li
- Abstract要約: マルチビュー3次元形状認識と検索のためのモデルであるViewFormerを提案する。
2つのアテンションブロックと4.8Mの学習可能なパラメータだけで、ViewFormerは初めてModelNet40で98.8%の認識精度を達成した。
難易度の高いRGBDデータセットでは、98.4%の認識精度が達成され、最強のベースラインに対して4.1%の絶対改善が達成された。
- 参考スコア(独自算出の注目度): 7.39435265842079
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper presents ViewFormer, a simple yet effective model for multi-view
3d shape recognition and retrieval. We systematically investigate the existing
methods for aggregating multi-view information and propose a novel ``view set"
perspective, which minimizes the relation assumption about the views and
releases the representation flexibility. We devise an adaptive attention model
to capture pairwise and higher-order correlations of the elements in the view
set. The learned multi-view correlations are aggregated into an expressive view
set descriptor for recognition and retrieval. Experiments show the proposed
method unleashes surprising capabilities across different tasks and datasets.
For instance, with only 2 attention blocks and 4.8M learnable parameters,
ViewFormer reaches 98.8% recognition accuracy on ModelNet40 for the first time,
exceeding previous best method by 1.1% . On the challenging RGBD dataset, our
method achieves 98.4% recognition accuracy, which is a 4.1% absolute
improvement over the strongest baseline. ViewFormer also sets new records in
several evaluation dimensions of 3D shape retrieval defined on the SHREC'17
benchmark.
- Abstract(参考訳): 本稿では,多次元形状認識と検索のための簡易かつ効果的なモデルであるViewFormerを提案する。
マルチビュー情報を集約する既存の手法を体系的に検討し,ビューに関する関係仮定を最小化し,表現の自由度を解放する,新しい「ビューセット」視点を提案する。
我々は、ビューセット内の要素のペアワイズおよび高次相関を捉えるための適応的注意モデルを作成する。
学習されたマルチビュー相関は、認識および検索のための表現型ビューセット記述子に集約される。
実験では、異なるタスクやデータセットにまたがる驚くべき機能を解き放つ方法を示した。
例えば、2つのアテンションブロックと4.8mの学習可能なパラメータを持つviewformerは、modelnet40で初めて98.8%の認識精度に達し、以前のベストメソッドを1.1%上回った。
難易度の高いRGBDデータセットでは、98.4%の認識精度が達成され、最強のベースラインに対して4.1%の絶対改善が達成された。
ViewFormerはまた、SHREC'17ベンチマークで定義された3次元形状検索のいくつかの評価次元で新しいレコードを設定する。
関連論文リスト
- VSFormer: Mining Correlations in Flexible View Set for Multi-view 3D Shape Understanding [9.048401253308123]
本稿では,複数の視点に対するフレキシブルな組織と明示的な相関学習について検討する。
我々は,集合内のすべての要素の対関係と高次相関を明示的に捉えるために,emphVSFormerというニブルトランスフォーマーモデルを考案した。
ModelNet40、ScanObjectNN、RGBDなど、さまざまな3D認識データセットの最先端結果に到達している。
論文 参考訳(メタデータ) (2024-09-14T01:48:54Z) - OpenShape: Scaling Up 3D Shape Representation Towards Open-World
Understanding [53.21204584976076]
我々は,テキスト,画像,点雲のマルチモーダルな共同表現を学習するOpenShapeを紹介する。
複数の3Dデータセットをアンサンブルすることで、トレーニングデータをスケールアップし、ノイズの多いテキスト記述を自動的にフィルタリングし、強化するためのいくつかの戦略を提案する。
ゼロショット3D分類ベンチマークでOpenShapeを評価し,オープンワールド認識の優れた能力を実証した。
論文 参考訳(メタデータ) (2023-05-18T07:07:19Z) - Cross-view Graph Contrastive Representation Learning on Partially
Aligned Multi-view Data [52.491074276133325]
マルチビュー表現学習は、過去数十年間で急速に発展し、多くの分野に応用されてきた。
本稿では,多視点情報を統合してデータアライメントを行い,潜在表現を学習する,新しいクロスビューグラフコントラスト学習フレームワークを提案する。
複数の実データを用いて実験を行い,クラスタリングおよび分類作業における提案手法の有効性を示した。
論文 参考訳(メタデータ) (2022-11-08T09:19:32Z) - Direct Multi-view Multi-person 3D Pose Estimation [138.48139701871213]
マルチビュー画像からマルチパーソン3Dポーズを推定するためのMulti-view Pose Transformer(MvP)を提案する。
MvPは、中間タスクに頼ることなく、複数の人物の3Dポーズを直接クリーンで効率的な方法で回帰する。
我々は,MvPモデルがより効率的でありながら,いくつかのベンチマークにおいて最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-07T13:09:20Z) - M3DeTR: Multi-representation, Multi-scale, Mutual-relation 3D Object
Detection with Transformers [78.48081972698888]
M3DeTRは、マルチスケールのフィーチャーピラミッドに基づいて、異なるポイントクラウド表現と異なる機能スケールを組み合わせたものです。
M3DeTRは、複数のポイントクラウド表現、機能スケール、およびトランスを使用してポイントクラウド間の相互関係を同時にモデル化する最初のアプローチです。
論文 参考訳(メタデータ) (2021-04-24T06:48:23Z) - Learning Implicit 3D Representations of Dressed Humans from Sparse Views [31.584157304372425]
本論文では,スパースなカメラビューから服姿の人間の暗黙的な3D表現を学習するエンドツーエンドのアプローチを提案する。
実験では, 提案手法が, 定量的・定性的に標準データに対する技術水準を上回っていることを示した。
論文 参考訳(メタデータ) (2021-04-16T10:20:26Z) - Auto-weighted Multi-view Feature Selection with Graph Optimization [90.26124046530319]
グラフ学習に基づく新しい教師なしマルチビュー特徴選択モデルを提案する。
1) 特徴選択過程において, 異なる視点で共有されたコンセンサス類似度グラフが学習される。
各種データセットを用いた実験により,提案手法が最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-11T03:25:25Z) - Distribution Alignment: A Unified Framework for Long-tail Visual
Recognition [52.36728157779307]
長尾視覚認識のための分散アライメント戦略を提案する。
次に,二段階学習における一般化された再重み付け法を導入して,事前のクラスバランスをとる。
提案手法は, 4つの認識タスクすべてにおいて, 単純で統一されたフレームワークを用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-03-30T14:09:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。