論文の概要: PARIS3D: Reasoning-based 3D Part Segmentation Using Large Multimodal Model
- arxiv url: http://arxiv.org/abs/2404.03836v1
- Date: Thu, 4 Apr 2024 23:38:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-08 17:16:00.530208
- Title: PARIS3D: Reasoning-based 3D Part Segmentation Using Large Multimodal Model
- Title(参考訳): PARIS3D:大規模マルチモーダルモデルを用いた推論に基づく3次元分割
- Authors: Amrin Kareem, Jean Lahoud, Hisham Cholakkal,
- Abstract要約: 本稿では,3次元オブジェクトに対する推論部分分割と呼ばれる新しいセグメンテーションタスクを提案する。
我々は3Dオブジェクトの特定の部分に関する複雑で暗黙的なテキストクエリに基づいてセグメンテーションマスクを出力する。
本稿では,暗黙のテキストクエリに基づいて3次元オブジェクトの一部を分割し,自然言語による説明を生成するモデルを提案する。
- 参考スコア(独自算出の注目度): 19.333506797686695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in 3D perception systems have significantly improved their ability to perform visual recognition tasks such as segmentation. However, these systems still heavily rely on explicit human instruction to identify target objects or categories, lacking the capability to actively reason and comprehend implicit user intentions. We introduce a novel segmentation task known as reasoning part segmentation for 3D objects, aiming to output a segmentation mask based on complex and implicit textual queries about specific parts of a 3D object. To facilitate evaluation and benchmarking, we present a large 3D dataset comprising over 60k instructions paired with corresponding ground-truth part segmentation annotations specifically curated for reasoning-based 3D part segmentation. We propose a model that is capable of segmenting parts of 3D objects based on implicit textual queries and generating natural language explanations corresponding to 3D object segmentation requests. Experiments show that our method achieves competitive performance to models that use explicit queries, with the additional abilities to identify part concepts, reason about them, and complement them with world knowledge. Our source code, dataset, and trained models are available at https://github.com/AmrinKareem/PARIS3D.
- Abstract(参考訳): 近年の3次元認識システムの進歩は,セグメンテーションなどの視覚的認識機能を大幅に向上させた。
しかしながら、これらのシステムは、ターゲットオブジェクトやカテゴリを特定するための明示的なヒューマンインストラクションに大きく依存しており、暗黙のユーザの意図を積極的に推論し理解する能力が欠如している。
本稿では,3次元オブジェクトの特定の部分に関する複雑で暗黙的なテキストクエリに基づいてセグメンテーションマスクを出力することを目的とした,3次元オブジェクトの推論部分セグメンテーションとして知られる新しいセグメンテーションタスクを提案する。
評価とベンチマークを容易にするため,60k以上の命令からなる大規模3次元データセットと,推論に基づく3次元部分分割に特化して算出された接地構造部分分割アノテーションを組み合わせて提案する。
暗黙のテキストクエリに基づいて3次元オブジェクトの一部をセグメント化し、3次元オブジェクトのセグメント化要求に対応する自然言語説明を生成するモデルを提案する。
実験により, 明示的なクエリを用いたモデルに対して, パート概念を識別し, 推論し, それらを世界的知識で補完する能力を付加して, 競合性能を達成できることが確認された。
ソースコード、データセット、トレーニングされたモデルはhttps://github.com/AmrinKareem/PARIS3D.comで公開されています。
関連論文リスト
- Segment3D: Learning Fine-Grained Class-Agnostic 3D Segmentation without
Manual Labels [141.23836433191624]
現在の3Dシーンセグメンテーション手法は、手動で注釈付けされた3Dトレーニングデータセットに大きく依存している。
高品質な3Dセグメンテーションマスクを生成するクラス非依存の3Dシーンセグメンテーション法であるSegment3Dを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:57:11Z) - SAI3D: Segment Any Instance in 3D Scenes [68.57002591841034]
新規なゼロショット3Dインスタンスセグメンテーション手法であるSAI3Dを紹介する。
我々の手法は3Dシーンを幾何学的プリミティブに分割し、段階的に3Dインスタンスセグメンテーションにマージする。
ScanNet、Matterport3D、さらに難しいScanNet++データセットに関する実証的な評価は、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2023-12-17T09:05:47Z) - Chat-3D v2: Bridging 3D Scene and Large Language Models with Object
Identifiers [62.232809030044116]
会話中にオブジェクトを自由に参照するためにオブジェクト識別子を導入する。
本稿では,属性認識トークンと関係認識トークンを各オブジェクトに対して学習する2段階アライメント手法を提案する。
ScanQA、ScanRefer、Nr3D/Sr3Dといった従来のデータセットで行った実験は、提案手法の有効性を示した。
論文 参考訳(メタデータ) (2023-12-13T14:27:45Z) - A One Stop 3D Target Reconstruction and multilevel Segmentation Method [0.0]
オープンソースのワンストップ3Dターゲット再構成とマルチレベルセグメンテーションフレームワーク(OSTRA)を提案する。
OSTRAは2D画像上でセグメンテーションを行い、画像シーケンス内のセグメンテーションラベルで複数のインスタンスを追跡し、ラベル付き3Dオブジェクトまたは複数のパーツをMulti-View Stereo(MVS)またはRGBDベースの3D再構成手法で再構成する。
本手法は,複雑なシーンにおいて,リッチなマルチスケールセグメンテーション情報に埋め込まれた3次元ターゲットを再構築するための新たな道を開く。
論文 参考訳(メタデータ) (2023-08-14T07:12:31Z) - Semi-Weakly Supervised Object Kinematic Motion Prediction [56.282759127180306]
3Dオブジェクトが与えられた場合、運動予測は移動部と対応する運動パラメータを識別することを目的としている。
階層的部分分割と移動部パラメータのマップを学習するグラフニューラルネットワークを提案する。
ネットワーク予測は、擬似ラベル付き移動情報を持つ大規模な3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2023-03-31T02:37:36Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - 3D Concept Grounding on Neural Fields [99.33215488324238]
既存の視覚的推論手法は、典型的には、2Dセグメンテーションマスクを抽出するために教師付き手法を用いる。
人間は、画像の3D表現の基盤となる概念を基盤にすることができる。
我々は,ニューラルネットワークの連続的,微分可能な性質を利用して概念をセグメント化し,学習することを提案する。
論文 参考訳(メタデータ) (2022-07-13T17:59:33Z) - Interactive Object Segmentation in 3D Point Clouds [27.88495480980352]
本稿では,ユーザが直接3Dポイントクラウドと対話する対話型3Dオブジェクトセグメンテーション手法を提案する。
私たちのモデルは、ターゲットドメインからのトレーニングデータを必要としない。
異なるデータ特性と異なるオブジェクトクラスを持つ他のいくつかのデータセットでうまく機能する。
論文 参考訳(メタデータ) (2022-04-14T18:31:59Z) - 3DRM:Pair-wise relation module for 3D object detection [17.757203529615815]
我々は3次元物体検出の曖昧さを軽減できるオブジェクト関係推論によるシーン理解の利点を論じる。
本稿では,ペアレベルのオブジェクト関係を理由として,新しい3次元関係モジュール(DRM)を提案する。
3DRMはオブジェクト間の意味的および空間的関係を予測し、オブジェクト関係の特徴を抽出する。
論文 参考訳(メタデータ) (2022-02-20T03:06:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。