論文の概要: A Unified Query-based Paradigm for Point Cloud Understanding
- arxiv url: http://arxiv.org/abs/2203.01252v2
- Date: Thu, 3 Mar 2022 07:49:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-04 12:56:11.442596
- Title: A Unified Query-based Paradigm for Point Cloud Understanding
- Title(参考訳): ポイントクラウド理解のための統一クエリベースパラダイム
- Authors: Zetong Yang, Li Jiang, Yanan Sun, Bernt Schiele, Jiaya Jia
- Abstract要約: 本稿では,検出,セグメンテーション,分類を含む3次元理解タスクのための新しい埋め込みクエリーパラダイム(EQ-Paradigm)を提案する。
入力は、任意の特徴抽出アーキテクチャで埋め込み段階でエンコードされる。
これは、クエリステージに中間表現、すなわちQ表現を導入して、埋め込みステージとタスクヘッドの間のブリッジとして機能させることによって達成される。
- 参考スコア(独自算出の注目度): 116.30071021894317
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D point cloud understanding is an important component in autonomous driving
and robotics. In this paper, we present a novel Embedding-Querying paradigm
(EQ-Paradigm) for 3D understanding tasks including detection, segmentation and
classification. EQ-Paradigm is a unified paradigm that enables the combination
of any existing 3D backbone architectures with different task heads. Under the
EQ-Paradigm, the input is firstly encoded in the embedding stage with an
arbitrary feature extraction architecture, which is independent of tasks and
heads. Then, the querying stage enables the encoded features to be applicable
for diverse task heads. This is achieved by introducing an intermediate
representation, i.e., Q-representation, in the querying stage to serve as a
bridge between the embedding stage and task heads. We design a novel Q-Net as
the querying stage network. Extensive experimental results on various 3D tasks
including semantic segmentation, object detection and shape classification show
that EQ-Paradigm in tandem with Q-Net is a general and effective pipeline,
which enables a flexible collaboration of backbones and heads, and further
boosts the performance of the state-of-the-art methods. All codes and models
will be published soon.
- Abstract(参考訳): 3Dポイントのクラウド理解は、自動運転とロボット工学の重要なコンポーネントである。
本稿では,検出,セグメンテーション,分類を含む3次元理解タスクのための新しい埋め込みクエリーパラダイム(EQ-Paradigm)を提案する。
EQ-Paradigmは既存の3Dバックボーンアーキテクチャと異なるタスクヘッドの組み合わせを可能にする統一パラダイムである。
EQ-Paradigmの下では、入力はまず、タスクやヘッドに依存しない任意の特徴抽出アーキテクチャで埋め込み段階で符号化される。
そして、クエリステージにより、エンコードされた機能を多様なタスクヘッドに適用できる。
これは、クエリステージに中間表現、すなわちq表現を導入し、埋め込みステージとタスクヘッドの間のブリッジとして機能することで実現される。
クエリステージネットワークとして,新しいQ-Netを設計する。
セマンティックセグメンテーション,オブジェクト検出,形状分類などの多種多様な3次元タスクに対する大規模な実験結果から,Q-Netと接するEQ-Paradigmは汎用的で効果的なパイプラインであり,バックボーンとヘッドの柔軟な協調を可能にし,最先端手法の性能をさらに向上させる。
すべてのコードとモデルが間もなく公開される。
関連論文リスト
- Towards Efficient Visual-Language Alignment of the Q-Former for Visual Reasoning Tasks [8.921189024320919]
Q-Formerにおけるパラメータ効率の良い微細チューニング(PEFT)の有効性について検討する。
Q-FormerにPEFTを適用すると、トレーニング可能なパラメータの2%未満で完全に微調整できる。
本研究は,視覚言語推論作業において,自己注意層が顕著に重要であることを明らかにする。
論文 参考訳(メタデータ) (2024-10-12T10:51:05Z) - RepVF: A Unified Vector Fields Representation for Multi-task 3D Perception [64.80760846124858]
本稿では,様々な知覚タスクの表現を調和させる新しい統一表現RepVFを提案する。
RepVFは、ベクトル場を通じてシーン内の異なるターゲットの構造を特徴付け、シングルヘッドでマルチタスクの学習モデルを可能にする。
RepVF 上に構築された RFTR は,タスク間の固有性を利用したネットワークである。
論文 参考訳(メタデータ) (2024-07-15T16:25:07Z) - A Unified Framework for 3D Scene Understanding [50.6762892022386]
UniSeg3Dは統一された3Dセグメンテーションフレームワークで、単一のモデル内でパノプト、セマンティック、インスタンス、インタラクティブ、参照、オープン語彙セグメンテーションタスクを実現する。
タスク間の知識共有を促進し、総合的な3Dシーン理解を促進する。
ScanNet20、ScanRefer、ScanNet200を含む3つのベンチマークの実験は、UniSeg3Dが現在のSOTAメソッドより一貫して優れていることを示した。
論文 参考訳(メタデータ) (2024-07-03T16:50:07Z) - DOCTR: Disentangled Object-Centric Transformer for Point Scene Understanding [7.470587868134298]
ポイントシーン理解は、現実世界のシーンポイントクラウドを処理する上で難しいタスクです。
最近の最先端の手法はまず各オブジェクトを分割し、次に異なるサブタスクの複数のステージで独立に処理する。
本稿では,オブジェクト中心表現を探索するDECTR(Disentangled Object-Centric TRansformer)を提案する。
論文 参考訳(メタデータ) (2024-03-25T05:22:34Z) - Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。
我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-12-13T14:27:45Z) - OneFormer3D: One Transformer for Unified Point Cloud Segmentation [5.530212768657545]
本稿では,統合された,シンプルで効果的なセグメンテーションタスクのセマンティクス,例,およびパノプティックセグメンテーションタスクを共同で提案する。
OneFormer3Dという名前のモデルは、学習可能なカーネルのグループを使用して、インスタンスとセマンティックセグメンテーションを一貫して実行する。
また、ScanNet、ScanNet200、S3DISデータセットのセマンティック、例、およびパノプティックセグメンテーションにおいて、最先端の結果を示す。
論文 参考訳(メタデータ) (2023-11-24T10:56:27Z) - Multi-task Learning with 3D-Aware Regularization [55.97507478913053]
本稿では,画像エンコーダから抽出した特徴を共有3D特徴空間に投影することで,複数のタスクをインタフェースする構造化3D認識正規化器を提案する。
提案手法はアーキテクチャ非依存であり,従来のマルチタスクバックボーンにプラグインすることで,性能を向上できることを示す。
論文 参考訳(メタデータ) (2023-10-02T08:49:56Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。