Fugu-MT 論文翻訳(概要): Chat-3D v2: Bridging 3D Scene and Large Language Models with Object Identifiers

論文の概要: Chat-3D v2: Bridging 3D Scene and Large Language Models with Object Identifiers

arxiv url: http://arxiv.org/abs/2312.08168v2
Date: Fri, 15 Dec 2023 06:15:33 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-19 19:14:47.621892
Title: Chat-3D v2: Bridging 3D Scene and Large Language Models with Object Identifiers
Title（参考訳）: Chat-3D v2:オブジェクト識別子を用いた3Dシーンと大規模言語モデルのブリッジ
Authors: Haifeng Huang, Zehan Wang, Rongjie Huang, Luping Liu, Xize Cheng, Yang Zhao, Tao Jin, Zhou Zhao
Abstract要約: 会話中にオブジェクトを自由に参照するためにオブジェクト識別子を導入する。本稿では,属性認識トークンと関係認識トークンを各オブジェクトに対して学習する2段階アライメント手法を提案する。 ScanQA、ScanRefer、Nr3D/Sr3Dといった従来のデータセットで行った実験は、提案手法の有効性を示した。
参考スコア（独自算出の注目度）: 62.232809030044116
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent research has evidenced the significant potentials of Large Language Models (LLMs) in handling challenging tasks within 3D scenes. However, current models are constrained to addressing object-centric tasks, where each question-answer pair focuses solely on an individual object. In real-world applications, users may pose queries involving multiple objects or expect for answers that precisely reference various objects. We introduce the use of object identifiers to freely reference objects during a conversation. While this solution appears straightforward, it presents two main challenges: 1) How to establish a reliable one-to-one correspondence between each object and its identifier? 2) How to incorporate complex spatial relationships among dozens of objects into the embedding space of the LLM? To address these challenges, we propose a two-stage alignment method, which involves learning an attribute-aware token and a relation-aware token for each object. These tokens capture the object's attributes and spatial relationships with surrounding objects in the 3D scene. Once the alignment is established, we can fine-tune our model on various downstream tasks using instruction tuning. Experiments conducted on traditional datasets like ScanQA, ScanRefer, and Nr3D/Sr3D showcase the effectiveness of our proposed method. Additionally, we create a 3D scene captioning dataset annotated with rich object identifiers, with the assistant of GPT-4. This dataset aims to further explore the capability of object identifiers in effective object referencing and precise scene understanding.
Abstract（参考訳）: 近年の研究では,3次元シーンにおける課題処理において,Large Language Models (LLMs) が重要な可能性を示している。しかしながら、現在のモデルは、各問合せペアが個々のオブジェクトにのみフォーカスする、オブジェクト中心のタスクに対処することに制約されている。現実世界のアプリケーションでは、複数のオブジェクトに関するクエリをポーズしたり、さまざまなオブジェクトを正確に参照する回答を期待したりできる。会話中にオブジェクトを自由に参照するためにオブジェクト識別子を導入する。このソリューションは単純に見えるが、主な課題は2つある。 1)各オブジェクトとその識別子間の信頼性の高い1対1対応を確立するには? 2)多数の物体間の複雑な空間的関係をllmの埋め込み空間にどのように組み込むか? これらの課題に対処するために,各オブジェクトに対する属性認識トークンと関係認識トークンを学習する2段階アライメント手法を提案する。これらのトークンは、オブジェクトの属性と周囲のオブジェクトとの空間的関係を3Dシーンでキャプチャする。アライメントが確立すれば、インストラクションチューニングを使用して、さまざまな下流タスクでモデルを微調整することができます。 ScanQA、ScanRefer、Nr3D/Sr3Dといった従来のデータセットで行った実験は、提案手法の有効性を示した。さらに,GPT-4の補助として,リッチオブジェクト識別子を付加した3次元シーンキャプションデータセットを作成する。このデータセットは、効果的なオブジェクト参照と正確なシーン理解におけるオブジェクト識別子の能力をさらに探求することを目的としている。

関連論文リスト

Descrip3D: Enhancing Large Language Model-based 3D Scene Understanding with Object-Level Text Descriptions [28.185661905201222]
Descrip3Dは自然言語を使ってオブジェクト間の関係を明示的にエンコードする新しいフレームワークである。グラウンド、キャプション、質問応答など、さまざまなタスクを統一した推論を可能にする。
論文参考訳（メタデータ） (2025-07-19T09:19:16Z)
MLLM-For3D: Adapting Multimodal Large Language Model for 3D Reasoning Segmentation [87.30919771444117]
推論セグメンテーション(Reasoning segmentation)は、人間の意図と空間的推論に基づく複雑なシーンにおける対象オブジェクトのセグメンテーションを目的としている。最近のマルチモーダル大言語モデル(MLLM)は印象的な2次元画像推論セグメンテーションを実証している。本稿では,2次元MLLMから3次元シーン理解へ知識を伝達するフレームワークであるMLLM-For3Dを紹介する。
論文参考訳（メタデータ） (2025-03-23T16:40:20Z)
Articulate3D: Holistic Understanding of 3D Scenes as Universal Scene Description [56.69740649781989]
3Dシーン理解は、コンピュータビジョンにおける長年の課題であり、混合現実、ウェアラブルコンピューティング、そして具体化されたAIを実現する上で重要な要素である。室内280のシーンに高品質な手動アノテーションを付加した専門的な3DデータセットであるArticulate3Dを紹介する。我々はまた,部分分割を同時に予測できる新しい統一フレームワークUSDNetと,オブジェクトの動作属性の完全な仕様を提示する。
論文参考訳（メタデータ） (2024-12-02T11:33:55Z)
Functionality understanding and segmentation in 3D scenes [6.1744362771344]
Fun3DUは、3Dシーンで機能を理解するために設計された最初のアプローチである。 Fun3DUは言語モデルを使用して、Chain-of-Thought推論を通じてタスク記述を解析する。我々はFun3DUをSceneFun3D上で評価する。
論文参考訳（メタデータ） (2024-11-25T11:57:48Z)
Grounded 3D-LLM with Referent Tokens [58.890058568493096]
そこで我々は,Grounded 3D-LLMを提案する。このモデルは、3Dシーンを参照するために特別な名詞句としてシーン参照トークンを使用する。タスクごとの指示追従テンプレートは、3D視覚タスクを言語形式に翻訳する際の自然と多様性を保証するために使用される。
論文参考訳（メタデータ） (2024-05-16T18:03:41Z)
PARIS3D: Reasoning-based 3D Part Segmentation Using Large Multimodal Model [19.333506797686695]
本稿では,3次元オブジェクトに対する推論部分分割と呼ばれる新しいセグメンテーションタスクを提案する。我々は3Dオブジェクトの特定の部分に関する複雑で暗黙的なテキストクエリに基づいてセグメンテーションマスクを出力する。本稿では,暗黙のテキストクエリに基づいて3次元オブジェクトの一部を分割し,自然言語による説明を生成するモデルを提案する。
論文参考訳（メタデータ） (2024-04-04T23:38:45Z)
Multi3DRefer: Grounding Text Description to Multiple 3D Objects [15.54885309441946]
本稿では,自然言語記述を用いて,現実の3Dシーンにおけるフレキシブルなオブジェクトをローカライズするタスクを紹介する。我々のデータセットには1609個のオブジェクトの61926の記述が含まれており、0、単、複数個の対象オブジェクトがそれぞれの記述によって参照される。コントラスト学習による提案をオンラインでレンダリングすることで,CLIPの2D機能を活用したより良いベースラインを構築する。
論文参考訳（メタデータ） (2023-09-11T06:03:39Z)
OpenScene: 3D Scene Understanding with Open Vocabularies [73.1411930820683]
従来の3Dシーン理解アプローチは、単一のタスクのためにモデルをトレーニングするためのラベル付き3Dデータセットに依存している。私たちは,CLIP機能空間にテキストと画像ピクセルを埋め込んだ3次元シーンポイントの高密度な特徴をモデルが予測する代替手法OpenSceneを提案する。このゼロショットアプローチは、タスク非依存のトレーニングとオープン語彙クエリを可能にする。
論文参考訳（メタデータ） (2022-11-28T18:58:36Z)
HyperDet3D: Learning a Scene-conditioned 3D Object Detector [154.84798451437032]
本研究では3次元物体検出のためのシーン条件付き事前知識を探索するためにHyperDet3Dを提案する。我々のHyperDet3Dは、ScanNetとSUN RGB-Dデータセットの3Dオブジェクト検出ベンチマークで最先端の結果を得る。
論文参考訳（メタデータ） (2022-04-12T07:57:58Z)
Point2Seq: Detecting 3D Objects as Sequences [58.63662049729309]
我々は、ポイントクラウドから3次元オブジェクトを検出するためのシンプルで効果的なフレームワーク、Point2Seqを提案する。我々は,各3Dオブジェクトを単語列とみなし,その3Dオブジェクト検出タスクを,自動回帰的に3Dシーンからの単語の復号化として再構成する。
論文参考訳（メタデータ） (2022-03-25T00:20:31Z)
LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文参考訳（メタデータ） (2021-07-07T18:55:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。