論文の概要: LSceneLLM: Enhancing Large 3D Scene Understanding Using Adaptive Visual Preferences
- arxiv url: http://arxiv.org/abs/2412.01292v2
- Date: Sun, 02 Feb 2025 11:49:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-04 16:04:59.710078
- Title: LSceneLLM: Enhancing Large 3D Scene Understanding Using Adaptive Visual Preferences
- Title(参考訳): LSceneLLM:Adaptive Visual Preferencesを用いた大規模3Dシーン理解の実現
- Authors: Hongyan Zhi, Peihao Chen, Junyan Li, Shuailei Ma, Xinyu Sun, Tianhang Xiang, Yinjie Lei, Mingkui Tan, Chuang Gan,
- Abstract要約: LSceneLLMはタスク関連領域を自動的に識別する適応型フレームワークである。
濃密なトークンセレクタは、LDMの注意マップを調べて、命令入力の視覚的嗜好を特定する。
適応自己保持モジュールを利用して、粗い粒度と選択されたきめ細かい視覚情報を融合する。
- 参考スコア(独自算出の注目度): 70.0873383646651
- License:
- Abstract: Research on 3D Vision-Language Models (3D-VLMs) is gaining increasing attention, which is crucial for developing embodied AI within 3D scenes, such as visual navigation and embodied question answering. Due to the high density of visual features, especially in large 3D scenes, accurately locating task-relevant visual information is challenging. Existing works attempt to segment all objects and consider their features as scene representations. However, these task-agnostic object features include much redundant information and missing details for the task-relevant area. To tackle these problems, we propose LSceneLLM, an adaptive framework that automatically identifies task-relevant areas by leveraging LLM's visual preference for different tasks, followed by a plug-and-play scene magnifier module to capture fine-grained details in focused areas. Specifically, a dense token selector examines the attention map of LLM to identify visual preferences for the instruction input. It then magnifies fine-grained details of the focusing area. An adaptive self-attention module is leveraged to fuse the coarse-grained and selected fine-grained visual information. To comprehensively evaluate the large scene understanding ability of 3D-VLMs, we further introduce a cross-room understanding benchmark, XR-Scene, which contains a series of large scene understanding tasks including XR-QA, XR-EmbodiedPlanning, and XR-SceneCaption. Experiments show that our method surpasses existing methods on both large scene understanding and existing scene understanding benchmarks. Plunging our scene magnifier module into the existing 3D-VLMs also brings significant improvement.
- Abstract(参考訳): 3Dビジョンランゲージモデル(3D-VLM)の研究は注目度が高まっており、視覚ナビゲーションや具体的質問応答といった3Dシーン内での具体的AI開発に不可欠である。
視覚的特徴の密度が高いため、特に大きな3Dシーンでは、タスク関連視覚情報を正確に位置決めすることが困難である。
既存の作業は、すべてのオブジェクトをセグメンテーションし、それらの特徴をシーン表現と見なそうとしている。
しかし、これらのタスクに依存しないオブジェクトの特徴には、多くの冗長な情報とタスク関連領域の詳細が欠落している。
これらの課題に対処するために,LSceneLLMを提案する。LSLMの視覚的嗜好を利用してタスク関連領域を自動的に識別する適応型フレームワークで,次に,焦点領域の細かな詳細をキャプチャするプラグイン・アンド・プレイシーン・拡大モジュールを提案する。
具体的には、高密度トークンセレクタがLLMのアテンションマップを調べて、命令入力の視覚的嗜好を特定する。
そして、焦点領域のきめ細かい詳細を拡大する。
適応自己保持モジュールを利用して、粗い粒度と選択されたきめ細かい視覚情報を融合する。
さらに,XR-QA,XR-EmbodiedPlanning,XR-SceneCaptionなどの大規模シーン理解タスクを含むクロスルーム理解ベンチマーク,XR-Sceneを導入する。
実験により,本手法は大規模シーン理解と既存シーン理解ベンチマークの両方において既存の手法を超越していることが示された。
シーン拡大モジュールを既存の3D-VLMに組み込むことも大きな改善をもたらします。
関連論文リスト
- Enhanced Multimodal RAG-LLM for Accurate Visual Question Answering [10.505845766495128]
MLLM(Multimodal large language model)は、視覚とテキストのモダリティの統合において大きな進歩を遂げた。
マルチモーダル検索拡張生成(RAG)に基づく新しいフレームワークを提案する。
RAGは、画像内のオブジェクト認識、関係識別、空間的理解を強化するために構造化されたシーングラフを導入している。
論文 参考訳(メタデータ) (2024-12-30T13:16:08Z) - g3D-LF: Generalizable 3D-Language Feature Fields for Embodied Tasks [62.74304008688472]
Generalizable 3D-Language Feature Fields (g3D-LF)は、大規模な3D言語データセットで事前訓練された3D表現モデルである。
論文 参考訳(メタデータ) (2024-11-26T01:54:52Z) - Grounded 3D-LLM with Referent Tokens [58.890058568493096]
そこで我々は,Grounded 3D-LLMを提案する。
このモデルは、3Dシーンを参照するために特別な名詞句としてシーン参照トークンを使用する。
タスクごとの指示追従テンプレートは、3D視覚タスクを言語形式に翻訳する際の自然と多様性を保証するために使用される。
論文 参考訳(メタデータ) (2024-05-16T18:03:41Z) - Scene-LLM: Extending Language Model for 3D Visual Understanding and Reasoning [24.162598399141785]
Scene-LLMは3次元視覚言語モデルであり、インタラクティブな3次元屋内環境におけるエンボディエージェントの能力を高める。
Scene-LLMを用いた実験は, 密接なキャプション, 質問応答, 対話型プランニングにおいて, 強力な機能を示す。
論文 参考訳(メタデータ) (2024-03-18T01:18:48Z) - 3DMIT: 3D Multi-modal Instruction Tuning for Scene Understanding [12.823274886850697]
我々は3DMITという新しい高速なプロンプトチューニングパラダイムを導入する。
このパラダイムは、3Dシーンと言語間のアライメントステージを排除し、命令プロンプトを3Dモダリティ情報で拡張する。
本研究では,3次元シーン領域における多様なタスクにまたがる手法の有効性を評価する。
論文 参考訳(メタデータ) (2024-01-06T12:20:18Z) - Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。
我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-12-13T14:27:45Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - HyperDet3D: Learning a Scene-conditioned 3D Object Detector [154.84798451437032]
本研究では3次元物体検出のためのシーン条件付き事前知識を探索するためにHyperDet3Dを提案する。
我々のHyperDet3Dは、ScanNetとSUN RGB-Dデータセットの3Dオブジェクト検出ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2022-04-12T07:57:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。