論文の概要: A Unified Query-based Paradigm for Point Cloud Understanding
- arxiv url: http://arxiv.org/abs/2203.01252v2
- Date: Thu, 3 Mar 2022 07:49:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-04 12:56:11.442596
- Title: A Unified Query-based Paradigm for Point Cloud Understanding
- Title(参考訳): ポイントクラウド理解のための統一クエリベースパラダイム
- Authors: Zetong Yang, Li Jiang, Yanan Sun, Bernt Schiele, Jiaya Jia
- Abstract要約: 本稿では,検出,セグメンテーション,分類を含む3次元理解タスクのための新しい埋め込みクエリーパラダイム(EQ-Paradigm)を提案する。
入力は、任意の特徴抽出アーキテクチャで埋め込み段階でエンコードされる。
これは、クエリステージに中間表現、すなわちQ表現を導入して、埋め込みステージとタスクヘッドの間のブリッジとして機能させることによって達成される。
- 参考スコア(独自算出の注目度): 116.30071021894317
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D point cloud understanding is an important component in autonomous driving
and robotics. In this paper, we present a novel Embedding-Querying paradigm
(EQ-Paradigm) for 3D understanding tasks including detection, segmentation and
classification. EQ-Paradigm is a unified paradigm that enables the combination
of any existing 3D backbone architectures with different task heads. Under the
EQ-Paradigm, the input is firstly encoded in the embedding stage with an
arbitrary feature extraction architecture, which is independent of tasks and
heads. Then, the querying stage enables the encoded features to be applicable
for diverse task heads. This is achieved by introducing an intermediate
representation, i.e., Q-representation, in the querying stage to serve as a
bridge between the embedding stage and task heads. We design a novel Q-Net as
the querying stage network. Extensive experimental results on various 3D tasks
including semantic segmentation, object detection and shape classification show
that EQ-Paradigm in tandem with Q-Net is a general and effective pipeline,
which enables a flexible collaboration of backbones and heads, and further
boosts the performance of the state-of-the-art methods. All codes and models
will be published soon.
- Abstract(参考訳): 3Dポイントのクラウド理解は、自動運転とロボット工学の重要なコンポーネントである。
本稿では,検出,セグメンテーション,分類を含む3次元理解タスクのための新しい埋め込みクエリーパラダイム(EQ-Paradigm)を提案する。
EQ-Paradigmは既存の3Dバックボーンアーキテクチャと異なるタスクヘッドの組み合わせを可能にする統一パラダイムである。
EQ-Paradigmの下では、入力はまず、タスクやヘッドに依存しない任意の特徴抽出アーキテクチャで埋め込み段階で符号化される。
そして、クエリステージにより、エンコードされた機能を多様なタスクヘッドに適用できる。
これは、クエリステージに中間表現、すなわちq表現を導入し、埋め込みステージとタスクヘッドの間のブリッジとして機能することで実現される。
クエリステージネットワークとして,新しいQ-Netを設計する。
セマンティックセグメンテーション,オブジェクト検出,形状分類などの多種多様な3次元タスクに対する大規模な実験結果から,Q-Netと接するEQ-Paradigmは汎用的で効果的なパイプラインであり,バックボーンとヘッドの柔軟な協調を可能にし,最先端手法の性能をさらに向上させる。
すべてのコードとモデルが間もなく公開される。
関連論文リスト
- OneFormer3D: One Transformer for Unified Point Cloud Segmentation [5.530212768657545]
本稿では,統合された,シンプルで効果的なセグメンテーションタスクのセマンティクス,例,およびパノプティックセグメンテーションタスクを共同で提案する。
OneFormer3Dという名前のモデルは、学習可能なカーネルのグループを使用して、インスタンスとセマンティックセグメンテーションを一貫して実行する。
また、ScanNet、ScanNet200、S3DISデータセットのセマンティック、例、およびパノプティックセグメンテーションにおいて、最先端の結果を示す。
論文 参考訳(メタデータ) (2023-11-24T10:56:27Z) - Multi-task Learning with 3D-Aware Regularization [55.97507478913053]
本稿では,画像エンコーダから抽出した特徴を共有3D特徴空間に投影することで,複数のタスクをインタフェースする構造化3D認識正規化器を提案する。
提案手法はアーキテクチャ非依存であり,従来のマルチタスクバックボーンにプラグインすることで,性能を向上できることを示す。
論文 参考訳(メタデータ) (2023-10-02T08:49:56Z) - 3D-QueryIS: A Query-based Framework for 3D Instance Segmentation [74.6998931386331]
従来の3Dインスタンスセグメンテーションの方法は、しばしばタスク間の依存関係と堅牢性の欠如の傾向を維持する。
本稿では,3D-QueryISと呼ばれる新しい問合せ方式を提案する。
私たちの3D-QueryISは、タスク間の依存関係による累積エラーから解放されています。
論文 参考訳(メタデータ) (2022-11-17T07:04:53Z) - Unifying Visual Perception by Dispersible Points Learning [19.5805418969605]
本稿では,視覚的タスクを多用するための,概念的にシンプルで柔軟で普遍的な視覚認知ヘッドを提案する。
本手法は画像中の物体を効果的に識別し,高品質なバウンディングボックスや輪郭型セグメンテーションマスクを同時に生成する。
我々は、ImageNet分類とCOCOスイートの3つのトラックについて広範囲に評価する。
論文 参考訳(メタデータ) (2022-08-18T04:30:24Z) - Continual Object Detection via Prototypical Task Correlation Guided
Gating Mechanism [120.1998866178014]
pRotOtypeal taSk corrElaTion guided gaTingAnism (ROSETTA)による連続物体検出のためのフレキシブルなフレームワークを提案する。
具体的には、統一されたフレームワークはすべてのタスクで共有され、タスク対応ゲートは特定のタスクのサブモデルを自動的に選択するために導入されます。
COCO-VOC、KITTI-Kitchen、VOCのクラスインクリメンタル検出、および4つのタスクの逐次学習の実験により、ROSETTAが最先端のパフォーマンスを得ることが示された。
論文 参考訳(メタデータ) (2022-05-06T07:31:28Z) - CNN LEGO: Disassembling and Assembling Convolutional Neural Network [0.0]
人間の視覚知覚機構を模倣する畳み込みニューラルネットワーク(CNN)は多くのコンピュータビジョン領域で成功している。
上記の視覚認知機構に着想を得て,MDA-Task(MDA-Task)と呼ばれる新しいタスクについて検討する。
MDA-Taskは、ディープモデルを独立したパーツに分解し、LEGOのおもちゃをプレイするようなパフォーマンスコストを伴わずに、新しいディープモデルに組み立てることができる。
論文 参考訳(メタデータ) (2022-03-25T05:27:28Z) - The Devil is in the Task: Exploiting Reciprocal Appearance-Localization
Features for Monocular 3D Object Detection [62.1185839286255]
低コストのモノクル3D物体検出は、自律運転において基本的な役割を果たす。
DFR-Netという動的特徴反射ネットワークを導入する。
我々は、KITTIテストセットの全ての単分子3D物体検出器の中で、第1位にランク付けする。
論文 参考訳(メタデータ) (2021-12-28T07:31:18Z) - Dynamic Feature Integration for Simultaneous Detection of Salient
Object, Edge and Skeleton [108.01007935498104]
本稿では,高次物体分割,エッジ検出,スケルトン抽出など,低レベルの3つの視覚問題を解く。
まず、これらのタスクで共有される類似点を示し、統一されたフレームワークの開発にどのように活用できるかを示す。
論文 参考訳(メタデータ) (2020-04-18T11:10:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。