論文の概要: 3D-AffordanceLLM: Harnessing Large Language Models for Open-Vocabulary Affordance Detection in 3D Worlds
- arxiv url: http://arxiv.org/abs/2502.20041v2
- Date: Mon, 03 Mar 2025 06:21:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-04 13:04:57.487525
- Title: 3D-AffordanceLLM: Harnessing Large Language Models for Open-Vocabulary Affordance Detection in 3D Worlds
- Title(参考訳): 3D-AffordanceLLM:3次元世界における開語彙精度検出のための大規模言語モデルの構築
- Authors: Hengshuo Chu, Xiang Deng, Qi Lv, Xiaoyang Chen, Yinchuan Li, Jianye Hao, Liqiang Nie,
- Abstract要約: 3D Affordance Detectionは、様々なロボットタスクの幅広い応用において難しい問題である。
我々は従来の割当検出パラダイムをテキスト推論改善(IRAS)タスクに再構成する。
本研究では,3次元オープンシーンにおけるアベイランス検出のためのフレームワークである3D-ADLLMを提案する。
- 参考スコア(独自算出の注目度): 81.14476072159049
- License:
- Abstract: 3D Affordance detection is a challenging problem with broad applications on various robotic tasks. Existing methods typically formulate the detection paradigm as a label-based semantic segmentation task. This paradigm relies on predefined labels and lacks the ability to comprehend complex natural language, resulting in limited generalization in open-world scene. To address these limitations, we reformulate the traditional affordance detection paradigm into \textit{Instruction Reasoning Affordance Segmentation} (IRAS) task. This task is designed to output a affordance mask region given a query reasoning text, which avoids fixed categories of input labels. We accordingly propose the \textit{3D-AffordanceLLM} (3D-ADLLM), a framework designed for reasoning affordance detection in 3D open-scene. Specifically, 3D-ADLLM introduces large language models (LLMs) to 3D affordance perception with a custom-designed decoder for generating affordance masks, thus achieving open-world reasoning affordance detection. In addition, given the scarcity of 3D affordance datasets for training large models, we seek to extract knowledge from general segmentation data and transfer it to affordance detection. Thus, we propose a multi-stage training strategy that begins with a novel pre-training task, i.e., \textit{Referring Object Part Segmentation}~(ROPS). This stage is designed to equip the model with general recognition and segmentation capabilities at the object-part level. Then followed by fine-tuning with the IRAS task, 3D-ADLLM obtains the reasoning ability for affordance detection. In summary, 3D-ADLLM leverages the rich world knowledge and human-object interaction reasoning ability of LLMs, achieving approximately an 8\% improvement in mIoU on open-vocabulary affordance detection tasks.
- Abstract(参考訳): 3D Affordance Detectionは、様々なロボットタスクの幅広い応用において難しい問題である。
既存の手法は通常、ラベルベースのセマンティックセグメンテーションタスクとして検出パラダイムを定式化する。
このパラダイムは事前に定義されたラベルに依存しており、複雑な自然言語を理解できないため、オープンワールドシーンにおける限定的な一般化をもたらす。
これらの制約に対処するため、従来の割当検出パラダイムを「textit{Instruction Reasoning Affordance Segmentation} (IRAS)」タスクに書き換える。
このタスクは、入力ラベルの固定されたカテゴリを避けるために、クエリ推論テキストが与えられた割安マスク領域を出力するように設計されている。
そこで我々は,3次元オープンシーンにおける可視性検出の推論を目的としたフレームワークであるtextit{3D-AffordanceLLM} (3D-ADLLM)を提案する。
具体的には,3D-ADLLM は3次元可視感に大型言語モデル (LLM) を導入し,手頃なマスクを生成するためのカスタムデコーダを設計し,オープンワールドの推論可視検出を実現する。
さらに,大規模モデルの訓練のための3Dアベイランスデータセットが不足していることを踏まえ,一般的なセグメンテーションデータから知識を抽出し,アベイランス検出に転送する。
そこで,本稿では,新しい事前学習タスク,すなわち \textit{Referring Object Part Segmentation}~(ROPS)から始まるマルチステージトレーニング戦略を提案する。
このステージは、オブジェクト・パーツレベルでの一般認識とセグメンテーション機能を備えたモデルとして設計されている。
その後、IRASタスクで微調整を行い、3D-ADLLMは可視検出のための推論能力を得る。
要約すると、3D-ADLLM は LLM の豊かな世界知識と人間-オブジェクト相互作用推論能力を活用し、オープン語彙の空き時間検出タスクにおいて mIoU を約 8 % 改善する。
関連論文リスト
- OpenScan: A Benchmark for Generalized Open-Vocabulary 3D Scene Understanding [43.69535335079362]
Open-vocabulary 3D scene understanding (OV-3D)は、閉じたオブジェクトクラス以外の新しいオブジェクトをローカライズし分類することを目的としている。
既存のアプローチとベンチマークは、主にオブジェクトクラスのコンテキスト内のオープンな語彙の問題に焦点を当てている。
我々は、オブジェクトクラスを超えたオープンな語彙問題を探索するために、汎用オープン語彙3Dシーン理解(GOV-3D)と呼ばれるより困難なタスクを導入する。
論文 参考訳(メタデータ) (2024-08-20T17:31:48Z) - Reasoning3D -- Grounding and Reasoning in 3D: Fine-Grained Zero-Shot Open-Vocabulary 3D Reasoning Part Segmentation via Large Vision-Language Models [20.277479473218513]
オブジェクトの検索とローカライズのためのZero-Shot 3D Reasoningを提案する。
複雑なコマンドを理解し実行するためのシンプルなベースラインメソッドReasoning3Dを設計する。
Reasoning3Dは、暗黙のテキストクエリに基づいて、3Dオブジェクトの一部を効果的にローカライズし、ハイライトすることができることを示す。
論文 参考訳(メタデータ) (2024-05-29T17:56:07Z) - Reason3D: Searching and Reasoning 3D Segmentation via Large Language Model [108.35777542298224]
Reason3Dは、ポイントクラウドデータとテキストプロンプトを処理し、テキスト応答とセグメンテーションマスクを生成する。
被写体を広範に分割する粗大なアプローチを用いた階層型マスクデコーダを提案する。
論文 参考訳(メタデータ) (2024-05-27T17:59:41Z) - Open-Vocabulary SAM3D: Towards Training-free Open-Vocabulary 3D Scene Understanding [41.96929575241655]
OV-SAM3Dはオープンな3Dシーンを理解するための訓練不要な手法である。
このフレームワークは、シーンの事前の知識を必要とせずに、任意の3Dシーンの理解タスクを実行するように設計されている。
ScanNet200 と nuScenes のデータセットに対する実証的な評価は、我々のアプローチが未知のオープンワールド環境における既存のオープンボキャブラリ手法を上回ることを示している。
論文 参考訳(メタデータ) (2024-05-24T14:07:57Z) - Grounded 3D-LLM with Referent Tokens [58.890058568493096]
そこで我々は,Grounded 3D-LLMを提案する。
このモデルは、3Dシーンを参照するために特別な名詞句としてシーン参照トークンを使用する。
タスクごとの指示追従テンプレートは、3D視覚タスクを言語形式に翻訳する際の自然と多様性を保証するために使用される。
論文 参考訳(メタデータ) (2024-05-16T18:03:41Z) - Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。
我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-12-13T14:27:45Z) - Generalized Robot 3D Vision-Language Model with Fast Rendering and Pre-Training Vision-Language Alignment [55.11291053011696]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。
事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。
限定的な再構築の場合、提案手法はWS3D++と呼ばれ、大規模なScanNetベンチマークで1位にランクインした。
論文 参考訳(メタデータ) (2023-12-01T15:47:04Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。