論文の概要: SeqAfford: Sequential 3D Affordance Reasoning via Multimodal Large Language Model
- arxiv url: http://arxiv.org/abs/2412.01550v1
- Date: Mon, 02 Dec 2024 14:37:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:49:51.899014
- Title: SeqAfford: Sequential 3D Affordance Reasoning via Multimodal Large Language Model
- Title(参考訳): SeqAfford: マルチモーダル大言語モデルによる逐次3Dアフォーマンス推論
- Authors: Chunlin Yu, Hanqing Wang, Ye Shi, Haoyang Luo, Sibei Yang, Jingyi Yu, Jingya Wang,
- Abstract要約: 3D割当セグメンテーションは、人間の指示を3Dオブジェクトのタッチ可能な領域にリンクして、操作を具体化することを目的としている。
既存の取り組みは、通常、単目的、単順のパラダイムに固執する。
本稿では,複雑なユーザ意図から推論することで従来のパラダイムを拡張したSequential 3D Affordance Reasoningタスクを提案する。
- 参考スコア(独自算出の注目度): 46.773958062464004
- License:
- Abstract: 3D affordance segmentation aims to link human instructions to touchable regions of 3D objects for embodied manipulations. Existing efforts typically adhere to single-object, single-affordance paradigms, where each affordance type or explicit instruction strictly corresponds to a specific affordance region and are unable to handle long-horizon tasks. Such a paradigm cannot actively reason about complex user intentions that often imply sequential affordances. In this paper, we introduce the Sequential 3D Affordance Reasoning task, which extends the traditional paradigm by reasoning from cumbersome user intentions and then decomposing them into a series of segmentation maps. Toward this, we construct the first instruction-based affordance segmentation benchmark that includes reasoning over both single and sequential affordances, comprising 180K instruction-point cloud pairs. Based on the benchmark, we propose our model, SeqAfford, to unlock the 3D multi-modal large language model with additional affordance segmentation abilities, which ensures reasoning with world knowledge and fine-grained affordance grounding in a cohesive framework. We further introduce a multi-granular language-point integration module to endow 3D dense prediction. Extensive experimental evaluations show that our model excels over well-established methods and exhibits open-world generalization with sequential reasoning abilities.
- Abstract(参考訳): 3D割当セグメンテーションは、人間の指示を3Dオブジェクトのタッチ可能な領域にリンクして、操作を具体化することを目的としている。
既存の取り組みは、典型的には単一目的の単一満足のパラダイムに固執するが、それぞれの空きタイプまたは明示的な指示は、厳密に特定の空き領域に対応しており、長い水平なタスクを処理できない。
このようなパラダイムは、しばしばシーケンシャルな余裕を暗示する複雑なユーザ意図を積極的に推論することはできない。
本稿では,複雑なユーザ意図からの推論によって従来のパラダイムを拡張し,それらを一連のセグメンテーションマップに分解するSequential 3D Affordance Reasoningタスクを提案する。
そこで本研究では,180Kのインストラクションポイントクラウドペアからなる単一およびシーケンシャルなアベイランスの推論を含む,最初の命令ベースのアベイランスセグメンテーションベンチマークを構築した。
このベンチマークに基づいて,世界的知識の推論と,密集したフレームワークによるきめ細かな価格設定を確実にする3次元マルチモーダルな大言語モデルであるSeqAffordを提案する。
さらに,高密度な3次元予測を実現するために,多言語言語ポイント統合モジュールを導入する。
実験により,本モデルが確立された手法よりも優れ,シーケンシャルな推論能力を備えたオープンワールドの一般化が示された。
関連論文リスト
- CL3DOR: Contrastive Learning for 3D Large Multimodal Models via Odds Ratio on High-Resolution Point Clouds [1.9643285694999641]
高解点雲上でのOdds比による3次元大規模マルチモーダルモデルのコントラスト学習を提案する。
CL3DORは3Dシーン理解と推論のベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-01-07T15:42:32Z) - Point-PRC: A Prompt Learning Based Regulation Framework for Generalizable Point Cloud Analysis [39.85109385954641]
近年の研究では、パラメータ効率のよいプロンプトチューニングにより、3次元点雲認識の性能が著しく向上できることが示されている。
本稿では,学習可能なプロンプトが大規模3次元モデルにおいて,よく学習された一般知識と積極的に対話することを可能にする包括的規制フレームワークを提案する。
意外なことに,本手法は,一貫した一般化能力の向上だけでなく,様々な3DDGベンチマークにおけるタスク固有の3D認識性能を明確なマージンで向上させる。
論文 参考訳(メタデータ) (2024-10-27T10:35:47Z) - 3D-GRES: Generalized 3D Referring Expression Segmentation [77.10044505645064]
3D参照式(3D-RES)は、自然言語の記述に基づいて、特定のインスタンスを3D空間内にセグメント化することを目的としている。
一般化された3D参照式(3D-GRES)は、自然言語命令に基づいて任意の数のインスタンスをセグメントする機能を拡張する。
論文 参考訳(メタデータ) (2024-07-30T08:59:05Z) - Reasoning3D -- Grounding and Reasoning in 3D: Fine-Grained Zero-Shot Open-Vocabulary 3D Reasoning Part Segmentation via Large Vision-Language Models [20.277479473218513]
オブジェクトの検索とローカライズのためのZero-Shot 3D Reasoningを提案する。
複雑なコマンドを理解し実行するためのシンプルなベースラインメソッドReasoning3Dを設計する。
Reasoning3Dは、暗黙のテキストクエリに基づいて、3Dオブジェクトの一部を効果的にローカライズし、ハイライトすることができることを示す。
論文 参考訳(メタデータ) (2024-05-29T17:56:07Z) - Reason3D: Searching and Reasoning 3D Segmentation via Large Language Model [108.35777542298224]
Reason3Dは、ポイントクラウドデータとテキストプロンプトを処理し、テキスト応答とセグメンテーションマスクを生成する。
被写体を広範に分割する粗大なアプローチを用いた階層型マスクデコーダを提案する。
論文 参考訳(メタデータ) (2024-05-27T17:59:41Z) - Segment Any 3D Object with Language [58.471327490684295]
本稿では,Segment any 3D Object with LanguagE (SOLE)を紹介した。
具体的には、バックボーンとデコーダの両方にマルチモーダル意味を組み込むマルチモーダル融合ネットワークを提案する。
我々のSOLEは、ScanNetv2、ScanNet200、Replicaベンチマークにおいて、従来の方法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2024-04-02T17:59:10Z) - Generalized Robot 3D Vision-Language Model with Fast Rendering and Pre-Training Vision-Language Alignment [55.11291053011696]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。
事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。
限定的な再構築の場合、提案手法はWS3D++と呼ばれ、大規模なScanNetベンチマークで1位にランクインした。
論文 参考訳(メタデータ) (2023-12-01T15:47:04Z) - 3D-STMN: Dependency-Driven Superpoint-Text Matching Network for
End-to-End 3D Referring Expression Segmentation [33.20461146674787]
3D参照式(3D-RES)では、従来のアプローチは2段階のパラダイムを採用し、セグメンテーション提案を抽出し、参照式とマッチングする。
本稿では,依存性駆動の洞察に富む,革新的なエンドツーエンドのSuperpoint-Text Matching Network(3D-STMN)を提案する。
我々のモデルは新しい性能基準を設定し、mIoUゲインの11.7ポイントを登録するだけでなく、従来の手法を95.7倍に越え、推論速度の驚異的な向上も達成している。
論文 参考訳(メタデータ) (2023-08-31T11:00:03Z) - Distilling Coarse-to-Fine Semantic Matching Knowledge for Weakly
Supervised 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドリングは、所定の文クエリに対応する3Dシーンでターゲットオブジェクトを見つけることを含む。
弱教師付きアノテーションを利用して3次元視覚的接地モデルを学ぶことを提案する。
オブジェクトの提案と文のセマンティックな類似性を粗大な方法で解析する新しいセマンティックマッチングモデルを設計する。
論文 参考訳(メタデータ) (2023-07-18T13:49:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。