Fugu-MT 論文翻訳(概要): A Unified Query-based Paradigm for Point Cloud Understanding

論文の概要: A Unified Query-based Paradigm for Point Cloud Understanding

arxiv url: http://arxiv.org/abs/2203.01252v2
Date: Thu, 3 Mar 2022 07:49:12 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-04 12:56:11.442596
Title: A Unified Query-based Paradigm for Point Cloud Understanding
Title（参考訳）: ポイントクラウド理解のための統一クエリベースパラダイム
Authors: Zetong Yang, Li Jiang, Yanan Sun, Bernt Schiele, Jiaya Jia
Abstract要約: 本稿では,検出,セグメンテーション,分類を含む3次元理解タスクのための新しい埋め込みクエリーパラダイム(EQ-Paradigm)を提案する。入力は、任意の特徴抽出アーキテクチャで埋め込み段階でエンコードされる。これは、クエリステージに中間表現、すなわちQ表現を導入して、埋め込みステージとタスクヘッドの間のブリッジとして機能させることによって達成される。
参考スコア（独自算出の注目度）: 116.30071021894317
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: 3D point cloud understanding is an important component in autonomous driving and robotics. In this paper, we present a novel Embedding-Querying paradigm (EQ-Paradigm) for 3D understanding tasks including detection, segmentation and classification. EQ-Paradigm is a unified paradigm that enables the combination of any existing 3D backbone architectures with different task heads. Under the EQ-Paradigm, the input is firstly encoded in the embedding stage with an arbitrary feature extraction architecture, which is independent of tasks and heads. Then, the querying stage enables the encoded features to be applicable for diverse task heads. This is achieved by introducing an intermediate representation, i.e., Q-representation, in the querying stage to serve as a bridge between the embedding stage and task heads. We design a novel Q-Net as the querying stage network. Extensive experimental results on various 3D tasks including semantic segmentation, object detection and shape classification show that EQ-Paradigm in tandem with Q-Net is a general and effective pipeline, which enables a flexible collaboration of backbones and heads, and further boosts the performance of the state-of-the-art methods. All codes and models will be published soon.
Abstract（参考訳）: 3Dポイントのクラウド理解は、自動運転とロボット工学の重要なコンポーネントである。本稿では,検出,セグメンテーション,分類を含む3次元理解タスクのための新しい埋め込みクエリーパラダイム(EQ-Paradigm)を提案する。 EQ-Paradigmは既存の3Dバックボーンアーキテクチャと異なるタスクヘッドの組み合わせを可能にする統一パラダイムである。 EQ-Paradigmの下では、入力はまず、タスクやヘッドに依存しない任意の特徴抽出アーキテクチャで埋め込み段階で符号化される。そして、クエリステージにより、エンコードされた機能を多様なタスクヘッドに適用できる。これは、クエリステージに中間表現、すなわちq表現を導入し、埋め込みステージとタスクヘッドの間のブリッジとして機能することで実現される。クエリステージネットワークとして,新しいQ-Netを設計する。セマンティックセグメンテーション,オブジェクト検出,形状分類などの多種多様な3次元タスクに対する大規模な実験結果から,Q-Netと接するEQ-Paradigmは汎用的で効果的なパイプラインであり,バックボーンとヘッドの柔軟な協調を可能にし,最先端手法の性能をさらに向上させる。すべてのコードとモデルが間もなく公開される。

関連論文リスト

Unified Semantic Transformer for 3D Scene Understanding [55.415468022487005]
我々は、単一のモデル内に多様な3Dセマンティックタスクを統一する新しいフィードフォワードニューラルネットワークUNITEを紹介する。我々のモデルは、完全なエンドツーエンドで見えないシーンで動作し、完全な3Dセマンティックジオメトリを推測するのにほんの数秒しかかからない。 UNITEはいくつかの異なる意味的タスクにおいて最先端のパフォーマンスを達成し、タスク固有のモデルよりも優れていることを実証する。
論文参考訳（メタデータ） (2025-12-16T12:49:35Z)
OmniFD: A Unified Model for Versatile Face Forgery Detection [45.17431538516313]
OmniFDは、単一のモデル内で4つのコアフォージェリ検出タスクを共同で処理する統合フレームワークである。本アーキテクチャは,(1)画像と映像の両方から統合された4次元時間表現を抽出する共有スウィン変換器,(2)学習可能なクエリを持つクロスタスクインタラクションモジュール,(3)洗練された表現を対応する予測に変換する軽量デコードヘッドの3つの主要コンポーネントから構成される。
論文参考訳（メタデータ） (2025-11-30T22:36:42Z)
SeqAffordSplat: Scene-level Sequential Affordance Reasoning on 3D Gaussian Splatting [85.87902260102652]
本稿では, 連続3次元ガウシアン・アフラマンス推論の課題について紹介する。次に,SeqSplatNetを提案する。SqSplatNetは,命令を直接3Dアベイランスマスクのシーケンスにマッピングするエンドツーエンドフレームワークである。本手法は,1段階のインタラクションから,シーンレベルでの複雑なシーケンシャルなタスクへの可利用性推論を効果的に向上させる。
論文参考訳（メタデータ） (2025-07-31T17:56:55Z)
3D-AffordanceLLM: Harnessing Large Language Models for Open-Vocabulary Affordance Detection in 3D Worlds [81.14476072159049]
3D Affordance Detectionは、様々なロボットタスクの幅広い応用において難しい問題である。我々は従来の割当検出パラダイムをテキスト推論改善(IRAS)タスクに再構成する。本研究では,3次元オープンシーンにおけるアベイランス検出のためのフレームワークである3D-ADLLMを提案する。
論文参考訳（メタデータ） (2025-02-27T12:29:44Z)
UniQ: Unified Decoder with Task-specific Queries for Efficient Scene Graph Generation [9.275683880295874]
SGG(Scene Graph Generation)は、オブジェクトのエンティティを特定し、そのイメージ内でそれらの関係を推論することを目的としている。 1段階の手法は、学習可能なクエリの固定サイズのセットを統合し、リレーショナル三重項を共同で推論する。一段階法の課題は、弱い絡み合いの問題に起因している。タスク固有のクエリアーキテクチャを備えた統一デコーダUniQを紹介する。
論文参考訳（メタデータ） (2025-01-10T03:38:16Z)
Towards Efficient Visual-Language Alignment of the Q-Former for Visual Reasoning Tasks [8.921189024320919]
Q-Formerにおけるパラメータ効率の良い微細チューニング(PEFT)の有効性について検討する。 Q-FormerにPEFTを適用すると、トレーニング可能なパラメータの2%未満で完全に微調整できる。本研究は,視覚言語推論作業において,自己注意層が顕著に重要であることを明らかにする。
論文参考訳（メタデータ） (2024-10-12T10:51:05Z)
RepVF: A Unified Vector Fields Representation for Multi-task 3D Perception [64.80760846124858]
本稿では,様々な知覚タスクの表現を調和させる新しい統一表現RepVFを提案する。 RepVFは、ベクトル場を通じてシーン内の異なるターゲットの構造を特徴付け、シングルヘッドでマルチタスクの学習モデルを可能にする。 RepVF 上に構築された RFTR は,タスク間の固有性を利用したネットワークである。
論文参考訳（メタデータ） (2024-07-15T16:25:07Z)
A Unified Framework for 3D Scene Understanding [50.6762892022386]
UniSeg3Dは統一された3Dセグメンテーションフレームワークで、単一のモデル内でパノプト、セマンティック、インスタンス、インタラクティブ、参照、オープン語彙セグメンテーションタスクを実現する。タスク間の知識共有を促進し、総合的な3Dシーン理解を促進する。 ScanNet20、ScanRefer、ScanNet200を含む3つのベンチマークの実験は、UniSeg3Dが現在のSOTAメソッドより一貫して優れていることを示した。
論文参考訳（メタデータ） (2024-07-03T16:50:07Z)
DOCTR: Disentangled Object-Centric Transformer for Point Scene Understanding [7.470587868134298]
ポイントシーン理解は、現実世界のシーンポイントクラウドを処理する上で難しいタスクです。最近の最先端の手法はまず各オブジェクトを分割し、次に異なるサブタスクの複数のステージで独立に処理する。本稿では,オブジェクト中心表現を探索するDECTR(Disentangled Object-Centric TRansformer)を提案する。
論文参考訳（メタデータ） (2024-03-25T05:22:34Z)
Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文参考訳（メタデータ） (2023-12-13T14:27:45Z)
OneFormer3D: One Transformer for Unified Point Cloud Segmentation [5.530212768657545]
本稿では,統合された,シンプルで効果的なセグメンテーションタスクのセマンティクス,例,およびパノプティックセグメンテーションタスクを共同で提案する。 OneFormer3Dという名前のモデルは、学習可能なカーネルのグループを使用して、インスタンスとセマンティックセグメンテーションを一貫して実行する。また、ScanNet、ScanNet200、S3DISデータセットのセマンティック、例、およびパノプティックセグメンテーションにおいて、最先端の結果を示す。
論文参考訳（メタデータ） (2023-11-24T10:56:27Z)
Multi-task Learning with 3D-Aware Regularization [55.97507478913053]
本稿では,画像エンコーダから抽出した特徴を共有3D特徴空間に投影することで,複数のタスクをインタフェースする構造化3D認識正規化器を提案する。提案手法はアーキテクチャ非依存であり,従来のマルチタスクバックボーンにプラグインすることで,性能を向上できることを示す。
論文参考訳（メタデータ） (2023-10-02T08:49:56Z)
Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文参考訳（メタデータ） (2023-07-01T13:53:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。