Fugu-MT 論文翻訳(概要): A Unified Framework for 3D Scene Understanding

論文の概要: A Unified Framework for 3D Scene Understanding

arxiv url: http://arxiv.org/abs/2407.03263v2
Date: Wed, 27 Nov 2024 15:08:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-01 15:52:52.213191
Title: A Unified Framework for 3D Scene Understanding
Title（参考訳）: 3次元シーン理解のための統一フレームワーク
Authors: Wei Xu, Chunsheng Shi, Sifan Tu, Xin Zhou, Dingkang Liang, Xiang Bai,
Abstract要約: UniSeg3Dは統合された3Dシーン理解フレームワークである。単一のモデル内で、パノプティクス、セマンティック、インスタンス、インタラクティブ、参照、オープンボキャブラリセグメンテーションタスクを達成する。
参考スコア（独自算出の注目度）: 50.6762892022386
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose UniSeg3D, a unified 3D scene understanding framework that achieves panoptic, semantic, instance, interactive, referring, and open-vocabulary segmentation tasks within a single model. Most previous 3D segmentation approaches are typically tailored to a specific task, limiting their understanding of 3D scenes to a task-specific perspective. In contrast, the proposed method unifies six tasks into unified representations processed by the same Transformer. It facilitates inter-task knowledge sharing, thereby promoting comprehensive 3D scene understanding. To take advantage of multi-task unification, we enhance performance by establishing explicit inter-task associations. Specifically, we design knowledge distillation and contrastive learning methods to transfer task-specific knowledge across different tasks. Experiments on three benchmarks, including ScanNet20, ScanRefer, and ScanNet200, demonstrate that the UniSeg3D consistently outperforms current SOTA methods, even those specialized for individual tasks. We hope UniSeg3D can serve as a solid unified baseline and inspire future work. Code and models are available at https://github.com/dk-liang/UniSeg3D.
Abstract（参考訳）: UniSeg3Dは,単一モデル内での視覚的,意味的,インスタンス的,対話的,参照的,オープン語彙的セグメンテーションタスクを実現する,統一的な3Dシーン理解フレームワークである。従来の3Dセグメンテーションアプローチは、通常、特定のタスクに合わせて調整され、3Dシーンの理解をタスク固有の視点に限定する。対照的に,提案手法は6つのタスクを同一のTransformerで処理された統一表現に統一する。タスク間の知識共有を容易にし、総合的な3Dシーン理解を促進する。マルチタスク統合を活用するために,明示的なタスク間アソシエーションを確立することにより,パフォーマンスを向上させる。具体的には、異なるタスク間でタスク固有の知識を伝達するために、知識蒸留と対照的な学習方法を設計する。 ScanNet20、ScanRefer、ScanNet200を含む3つのベンチマークの実験では、UniSeg3Dは個々のタスクに特化している場合でも、現在のSOTAメソッドより一貫して優れていることが示されている。 UniSeg3Dがしっかりとした統一されたベースラインとして機能し、将来の仕事を促すことを願っています。コードとモデルはhttps://github.com/dk-liang/UniSeg3Dで公開されている。

関連論文リスト

RepVF: A Unified Vector Fields Representation for Multi-task 3D Perception [64.80760846124858]
本稿では,様々な知覚タスクの表現を調和させる新しい統一表現RepVFを提案する。 RepVFは、ベクトル場を通じてシーン内の異なるターゲットの構造を特徴付け、シングルヘッドでマルチタスクの学習モデルを可能にする。 RepVF 上に構築された RFTR は,タスク間の固有性を利用したネットワークである。
論文参考訳（メタデータ） (2024-07-15T16:25:07Z)
Grounded 3D-LLM with Referent Tokens [58.890058568493096]
そこで我々は,Grounded 3D-LLMを提案する。このモデルは、3Dシーンを参照するために特別な名詞句としてシーン参照トークンを使用する。タスクごとの指示追従テンプレートは、3D視覚タスクを言語形式に翻訳する際の自然と多様性を保証するために使用される。
論文参考訳（メタデータ） (2024-05-16T18:03:41Z)
Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文参考訳（メタデータ） (2023-12-13T14:27:45Z)
Uni3DL: Unified Model for 3D and Language Understanding [41.74095171149082]
3Dおよび言語理解のための統一モデルであるUni3DLを提案する。 Uni3DLは、ポイントクラウド上で直接動作する。多様な3D視覚言語理解タスクに対して厳格に評価されている。
論文参考訳（メタデータ） (2023-12-05T08:30:27Z)
A Review and A Robust Framework of Data-Efficient 3D Scene Parsing with Traditional/Learned 3D Descriptors [10.497309421830671]
既存の最先端の3Dポイントクラウド理解手法は、完全に教師された方法でのみうまく機能する。この研究は、ラベルが限定されている場合のポイントクラウド理解に取り組むための、汎用的でシンプルなフレームワークを提供する。
論文参考訳（メタデータ） (2023-12-03T02:51:54Z)
Multi-task Learning with 3D-Aware Regularization [55.97507478913053]
本稿では,画像エンコーダから抽出した特徴を共有3D特徴空間に投影することで,複数のタスクをインタフェースする構造化3D認識正規化器を提案する。提案手法はアーキテクチャ非依存であり,従来のマルチタスクバックボーンにプラグインすることで,性能を向上できることを示す。
論文参考訳（メタデータ） (2023-10-02T08:49:56Z)
A Dynamic Feature Interaction Framework for Multi-task Visual Perception [100.98434079696268]
複数の共通認識課題を解決するための効率的な統合フレームワークを考案する。これらのタスクには、インスタンスセグメンテーション、セマンティックセグメンテーション、モノクル3D検出、深さ推定が含まれる。提案するフレームワークはD2BNetと呼ばれ,マルチタスク認識のためのパラメータ効率予測に一意なアプローチを示す。
論文参考訳（メタデータ） (2023-06-08T09:24:46Z)
Multi-CLIP: Contrastive Vision-Language Pre-training for Question Answering tasks in 3D Scenes [68.61199623705096]
一般的な言語知識と視覚概念を2次元画像から3次元シーン理解に適用するためのトレーニングモデルは、研究者が最近探求を始めたばかりの有望な方向である。そこで本研究では,モデルによる3次元シーンポイントクラウド表現の学習を可能にする,新しい3次元事前学習手法であるMulti-CLIPを提案する。
論文参考訳（メタデータ） (2023-06-04T11:08:53Z)
Joint 2D-3D Multi-Task Learning on Cityscapes-3D: 3D Detection, Segmentation, and Depth Estimation [11.608682595506354]
TaskPrompterは革新的なマルチタスクプロンプトフレームワークを提供する。 i)タスク・ジェネリックな表現、ii)タスク固有の表現、iii)タスク間の相互作用の学習を統一する。新しいベンチマークでは、モノクロ3D車両の検出、セマンティックセグメンテーション、モノクロ深度推定の予測を同時に生成するためにマルチタスクモデルが必要である。
論文参考訳（メタデータ） (2023-04-03T13:41:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。