Fugu-MT 論文翻訳(概要): Grounded 3D-LLM with Referent Tokens

論文の概要: Grounded 3D-LLM with Referent Tokens

arxiv url: http://arxiv.org/abs/2405.10370v1
Date: Thu, 16 May 2024 18:03:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-20 17:42:52.334202
Title: Grounded 3D-LLM with Referent Tokens
Title（参考訳）: 参照トークンを用いた接地型3D-LLM
Authors: Yilun Chen, Shuai Yang, Haifeng Huang, Tai Wang, Ruiyuan Lyu, Runsen Xu, Dahua Lin, Jiangmiao Pang,
Abstract要約: そこで我々は,Grounded 3D-LLMを提案する。このモデルは、3Dシーンを参照するために特別な名詞句としてシーン参照トークンを使用する。 3D視覚タスクをタスク固有の命令テンプレートを使用して言語形式に変換する自然なアプローチを提供する。
参考スコア（独自算出の注目度）: 58.890058568493096
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Prior studies on 3D scene understanding have primarily developed specialized models for specific tasks or required task-specific fine-tuning. In this study, we propose Grounded 3D-LLM, which explores the potential of 3D large multi-modal models (3D LMMs) to consolidate various 3D vision tasks within a unified generative framework. The model uses scene referent tokens as special noun phrases to reference 3D scenes, enabling the handling of sequences that interleave 3D and textual data. It offers a natural approach for translating 3D vision tasks into language formats using task-specific instruction templates. To facilitate the use of referent tokens in subsequent language modeling, we have curated large-scale grounded language datasets that offer finer scene-text correspondence at the phrase level by bootstrapping existing object labels. Subsequently, we introduced Contrastive LAnguage-Scene Pre-training (CLASP) to effectively leverage this data, thereby integrating 3D vision with language models. Our comprehensive evaluation covers open-ended tasks like dense captioning and 3D QA, alongside close-ended tasks such as object detection and language grounding. Experiments across multiple 3D benchmarks reveal the leading performance and the broad applicability of Grounded 3D-LLM. Code and datasets will be released on the project page: https://groundedscenellm.github.io/grounded_3d-llm.github.io.
Abstract（参考訳）: 3Dシーン理解に関する先行研究は、主に特定のタスクや必要なタスク固有の微調整のための特殊なモデルを開発した。本研究では,3次元大規模マルチモーダルモデル(3D LMM)の可能性を探求するグラウンドド3D-LLMを提案する。このモデルは、シーン参照トークンを特別な名詞句として3Dシーンを参照し、3Dデータとテキストデータをインターリーブするシーケンスのハンドリングを可能にする。 3D視覚タスクをタスク固有の命令テンプレートを使用して言語形式に変換する自然なアプローチを提供する。その後の言語モデリングにおける参照トークンの使用を容易にするため,既存のオブジェクトラベルをブートストラップすることで,フレーズレベルでより詳細なシーンテキスト対応を提供する大規模基底言語データセットをキュレートした。次に、このデータを効果的に活用するために、Contrastive LAnguage-Scene Pre-training (CLASP)を導入し、3Dビジョンを言語モデルに統合した。包括的評価では,高密度キャプションや3次元QAといったオープンエンドタスクに加えて,オブジェクト検出や言語接地といったクローズエンドタスクについても検討した。複数の3Dベンチマークによる実験は、Grounded 3D-LLMのリードパフォーマンスと幅広い適用性を明らかにしている。コードとデータセットはプロジェクトのページでリリースされる。

関連論文リスト

Ges3ViG: Incorporating Pointing Gestures into Language-Based 3D Visual Grounding for Embodied Reference Understanding [5.568166420745467]
3次元身体的参照理解(3D-ERU)は、言語記述と付随するポインティングジェスチャーを組み合わせて、3Dシーンにおいて最も関連性の高い対象物を特定する。データ拡張フレームワーク-Imputerを導入し、新しいベンチマークデータセット-ImputeRefer for 3D-ERUをキュレートする。また,他の3D-ERUモデルと比較して30%の精度向上を実現し,他の純粋言語ベースの3Dグラウンドモデルと比較して9%の精度向上を実現した3D-ERUの新しいモデルGes3ViGを提案する。
論文参考訳（メタデータ） (2025-04-13T15:43:06Z)
IRef-VLA: A Benchmark for Interactive Referential Grounding with Imperfect Language in 3D Scenes [10.139461308573336]
IRef-VLAは、11.5K以上のスキャンされた3D部屋からなる参照グラウンドタスクのための、世界で最大のデータセットである。我々は,ロバストでインタラクティブなナビゲーションシステムの開発を支援する3Dシーン理解のためのリソースの提供を目指している。
論文参考訳（メタデータ） (2025-03-20T16:16:10Z)
ViGiL3D: A Linguistically Diverse Dataset for 3D Visual Grounding [9.289977174410824]
3Dビジュアルグラウンドティングは、自然言語テキストによって参照される3Dシーンでエンティティをローカライズする。多様な言語パターンに対して視覚的接地手法を評価するための診断データセットである3D (ViGiL3D) の視覚的接地について紹介する。
論文参考訳（メタデータ） (2025-01-02T17:20:41Z)
g3D-LF: Generalizable 3D-Language Feature Fields for Embodied Tasks [62.74304008688472]
Generalizable 3D-Language Feature Fields (g3D-LF)は、大規模な3D言語データセットで事前訓練された3D表現モデルである。
論文参考訳（メタデータ） (2024-11-26T01:54:52Z)
Transcrib3D: 3D Referring Expression Resolution through Large Language Models [28.121606686759225]
本稿では,3次元検出手法と大規模言語モデルの創発的推論機能を組み合わせたアプローチであるTranscrib3Dを紹介する。 Transcrib3Dは3D参照解像度ベンチマークで最先端の結果を得る。提案手法は,提案手法を用いて,参照表現の難易度を含むクエリに対して,実際のロボットがピック・アンド・プレイス・タスクを実行できることを示す。
論文参考訳（メタデータ） (2024-04-30T02:48:20Z)
POP-3D: Open-Vocabulary 3D Occupancy Prediction from Images [32.33170182669095]
入力された2次元画像からオープンな3次元セマンティックなボクセル占有マップを推定する手法について述べる。アーキテクチャは、2D-3Dエンコーダと、占有率予測と3D言語ヘッドで構成されている。出力は3次元接地言語埋め込みの密度の高いボクセルマップであり、様々なオープン語彙タスクを可能にする。
論文参考訳（メタデータ） (2024-01-17T18:51:53Z)
3DMIT: 3D Multi-modal Instruction Tuning for Scene Understanding [12.823274886850697]
我々は3DMITという新しい高速なプロンプトチューニングパラダイムを導入する。このパラダイムは、3Dシーンと言語間のアライメントステージを排除し、命令プロンプトを3Dモダリティ情報で拡張する。本研究では,3次元シーン領域における多様なタスクにまたがる手法の有効性を評価する。
論文参考訳（メタデータ） (2024-01-06T12:20:18Z)
Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文参考訳（メタデータ） (2023-12-13T14:27:45Z)
Lowis3D: Language-Driven Open-World Instance-Level 3D Scene Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文参考訳（メタデータ） (2023-08-01T07:50:14Z)
3D-LLM: Injecting the 3D World into Large Language Models [60.43823088804661]
大規模言語モデル (LLM) と視覚言語モデル (VLM) は、常識推論のような複数のタスクで優れていることが証明されている。本稿では,大規模言語モデルに3Dワールドを注入し,新しい3D-LLMのファミリーを導入することを提案する。具体的には、3D-LLMは3Dポイントクラウドとその機能を入力として取り込んで、さまざまな3D関連タスクを実行することができる。
論文参考訳（メタデータ） (2023-07-24T17:59:02Z)
OpenScene: 3D Scene Understanding with Open Vocabularies [73.1411930820683]
従来の3Dシーン理解アプローチは、単一のタスクのためにモデルをトレーニングするためのラベル付き3Dデータセットに依存している。私たちは,CLIP機能空間にテキストと画像ピクセルを埋め込んだ3次元シーンポイントの高密度な特徴をモデルが予測する代替手法OpenSceneを提案する。このゼロショットアプローチは、タスク非依存のトレーニングとオープン語彙クエリを可能にする。
論文参考訳（メタデータ） (2022-11-28T18:58:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。