論文の概要: Chat-3D v2: Bridging 3D Scene and Large Language Models with Object
Identifiers
- arxiv url: http://arxiv.org/abs/2312.08168v2
- Date: Fri, 15 Dec 2023 06:15:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 19:14:47.621892
- Title: Chat-3D v2: Bridging 3D Scene and Large Language Models with Object
Identifiers
- Title(参考訳): Chat-3D v2:オブジェクト識別子を用いた3Dシーンと大規模言語モデルのブリッジ
- Authors: Haifeng Huang, Zehan Wang, Rongjie Huang, Luping Liu, Xize Cheng, Yang
Zhao, Tao Jin, Zhou Zhao
- Abstract要約: 会話中にオブジェクトを自由に参照するためにオブジェクト識別子を導入する。
本稿では,属性認識トークンと関係認識トークンを各オブジェクトに対して学習する2段階アライメント手法を提案する。
ScanQA、ScanRefer、Nr3D/Sr3Dといった従来のデータセットで行った実験は、提案手法の有効性を示した。
- 参考スコア(独自算出の注目度): 62.232809030044116
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent research has evidenced the significant potentials of Large Language
Models (LLMs) in handling challenging tasks within 3D scenes. However, current
models are constrained to addressing object-centric tasks, where each
question-answer pair focuses solely on an individual object. In real-world
applications, users may pose queries involving multiple objects or expect for
answers that precisely reference various objects. We introduce the use of
object identifiers to freely reference objects during a conversation. While
this solution appears straightforward, it presents two main challenges: 1) How
to establish a reliable one-to-one correspondence between each object and its
identifier? 2) How to incorporate complex spatial relationships among dozens of
objects into the embedding space of the LLM? To address these challenges, we
propose a two-stage alignment method, which involves learning an
attribute-aware token and a relation-aware token for each object. These tokens
capture the object's attributes and spatial relationships with surrounding
objects in the 3D scene. Once the alignment is established, we can fine-tune
our model on various downstream tasks using instruction tuning. Experiments
conducted on traditional datasets like ScanQA, ScanRefer, and Nr3D/Sr3D
showcase the effectiveness of our proposed method. Additionally, we create a 3D
scene captioning dataset annotated with rich object identifiers, with the
assistant of GPT-4. This dataset aims to further explore the capability of
object identifiers in effective object referencing and precise scene
understanding.
- Abstract(参考訳): 近年の研究では,3次元シーンにおける課題処理において,Large Language Models (LLMs) が重要な可能性を示している。
しかしながら、現在のモデルは、各問合せペアが個々のオブジェクトにのみフォーカスする、オブジェクト中心のタスクに対処することに制約されている。
現実世界のアプリケーションでは、複数のオブジェクトに関するクエリをポーズしたり、さまざまなオブジェクトを正確に参照する回答を期待したりできる。
会話中にオブジェクトを自由に参照するためにオブジェクト識別子を導入する。
このソリューションは単純に見えるが、主な課題は2つある。
1)各オブジェクトとその識別子間の信頼性の高い1対1対応を確立するには?
2)多数の物体間の複雑な空間的関係をllmの埋め込み空間にどのように組み込むか?
これらの課題に対処するために,各オブジェクトに対する属性認識トークンと関係認識トークンを学習する2段階アライメント手法を提案する。
これらのトークンは、オブジェクトの属性と周囲のオブジェクトとの空間的関係を3Dシーンでキャプチャする。
アライメントが確立すれば、インストラクションチューニングを使用して、さまざまな下流タスクでモデルを微調整することができます。
ScanQA、ScanRefer、Nr3D/Sr3Dといった従来のデータセットで行った実験は、提案手法の有効性を示した。
さらに,GPT-4の補助として,リッチオブジェクト識別子を付加した3次元シーンキャプションデータセットを作成する。
このデータセットは、効果的なオブジェクト参照と正確なシーン理解におけるオブジェクト識別子の能力をさらに探求することを目的としている。
関連論文リスト
- Multi3DRefer: Grounding Text Description to Multiple 3D Objects [15.54885309441946]
本稿では,自然言語記述を用いて,現実の3Dシーンにおけるフレキシブルなオブジェクトをローカライズするタスクを紹介する。
我々のデータセットには1609個のオブジェクトの61926の記述が含まれており、0、単、複数個の対象オブジェクトがそれぞれの記述によって参照される。
コントラスト学習による提案をオンラインでレンダリングすることで,CLIPの2D機能を活用したより良いベースラインを構築する。
論文 参考訳(メタデータ) (2023-09-11T06:03:39Z) - ROAM: Robust and Object-Aware Motion Generation Using Neural Pose
Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。
我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。
本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-24T17:59:51Z) - PatchContrast: Self-Supervised Pre-training for 3D Object Detection [14.603858163158625]
PatchContrastは、3Dオブジェクト検出のための新しい自己教師付きポイントクラウド事前学習フレームワークである。
提案手法は,3つの一般的な3次元検出データセットにおいて,既存の最先端モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-14T07:45:54Z) - 3DRP-Net: 3D Relative Position-aware Network for 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドは、自由形式の言語記述によって、ターゲットオブジェクトを3Dポイントクラウドにローカライズすることを目的としている。
3次元相対位置認識ネットワーク(3-Net)という,関係性を考慮した一段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T09:33:25Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - ObjectFolder: A Dataset of Objects with Implicit Visual, Auditory, and
Tactile Representations [52.226947570070784]
両課題に対処する100のオブジェクトからなるデータセットであるObjectを,2つの重要なイノベーションで紹介する。
まず、オブジェクトは視覚的、聴覚的、触覚的なすべてのオブジェクトの知覚データをエンコードし、多数の多感覚オブジェクト認識タスクを可能にする。
第2に、Objectは統一されたオブジェクト中心のシミュレーションと、各オブジェクトの視覚的テクスチャ、触覚的読み出し、触覚的読み出しに暗黙的な表現を採用しており、データセットの使用が柔軟で共有が容易である。
論文 参考訳(メタデータ) (2021-09-16T14:00:59Z) - A Deep Learning Approach to Object Affordance Segmentation [31.221897360610114]
我々は,ビデオと静的画像の両方において,画素単位の価格ラベルを推定するオートエンコーダを設計する。
本モデルは,ソフトアテンション機構を用いて,オブジェクトラベルやバウンディングボックスの必要性を克服する。
本モデルは,SOR3D-AFF上での強い教師付き手法と比較して,競争力のある結果が得られることを示す。
論文 参考訳(メタデータ) (2020-04-18T15:34:41Z) - MLCVNet: Multi-Level Context VoteNet for 3D Object Detection [51.45832752942529]
我々は,最先端のVoteNet上に構築された3次元オブジェクトを相関的に認識するためのマルチレベルコンテキストVoteNet(MLCVNet)を提案する。
異なるレベルのコンテキスト情報をエンコードするために,VoteNetの投票・分類段階に3つのコンテキストモジュールを導入する。
本手法は,3次元物体検出データセットの精度向上に有効な手法である。
論文 参考訳(メタデータ) (2020-04-12T19:10:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。