論文の概要: Argus: Leveraging Multiview Images for Improved 3-D Scene Understanding With Large Language Models
- arxiv url: http://arxiv.org/abs/2507.12916v1
- Date: Thu, 17 Jul 2025 09:02:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.420084
- Title: Argus: Leveraging Multiview Images for Improved 3-D Scene Understanding With Large Language Models
- Title(参考訳): Argus: 大規模言語モデルによる3次元シーン理解の改善のためのマルチビュー画像の活用
- Authors: Yifan Xu, Chao Zhang, Hanqi Jiang, Xiaoyan Wang, Ruifei Ma, Yiwei Li, Zihao Wu, Zeju Li, Xiangde Liu,
- Abstract要約: 現在の方法は3Dポイント・クラウドに大きく依存しているが、屋内シーンの3Dポイント・クラウドの再構築は情報損失をもたらすことが多い。
マルチビュー画像を利用した3次元シーン理解のための新しい3次元マルチモーダルフレームワークArgusを提案する。
提案手法は,3次元点雲を再構成しながら情報損失を補正し,LLMが3次元世界をよりよく理解するのに役立つ。
- 参考スコア(独自算出の注目度): 21.00170902896308
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advancements in foundation models have made it possible to conduct applications in various downstream tasks. Especially, the new era has witnessed a remarkable capability to extend Large Language Models (LLMs) for tackling tasks of 3D scene understanding. Current methods rely heavily on 3D point clouds, but the 3D point cloud reconstruction of an indoor scene often results in information loss. Some textureless planes or repetitive patterns are prone to omission and manifest as voids within the reconstructed 3D point clouds. Besides, objects with complex structures tend to introduce distortion of details caused by misalignments between the captured images and the dense reconstructed point clouds. 2D multi-view images present visual consistency with 3D point clouds and provide more detailed representations of scene components, which can naturally compensate for these deficiencies. Based on these insights, we propose Argus, a novel 3D multimodal framework that leverages multi-view images for enhanced 3D scene understanding with LLMs. In general, Argus can be treated as a 3D Large Multimodal Foundation Model (3D-LMM) since it takes various modalities as input(text instructions, 2D multi-view images, and 3D point clouds) and expands the capability of LLMs to tackle 3D tasks. Argus involves fusing and integrating multi-view images and camera poses into view-as-scene features, which interact with the 3D features to create comprehensive and detailed 3D-aware scene embeddings. Our approach compensates for the information loss while reconstructing 3D point clouds and helps LLMs better understand the 3D world. Extensive experiments demonstrate that our method outperforms existing 3D-LMMs in various downstream tasks.
- Abstract(参考訳): 基礎モデルの進歩により、様々な下流タスクでアプリケーションを実行できるようになった。
特に、新しい時代は、3Dシーン理解のタスクに対処するために、LLM(Large Language Models)を拡張する驚くべき能力を見出した。
現在の方法は3Dポイント・クラウドに大きく依存しているが、屋内シーンの3Dポイント・クラウドの再構築は情報損失をもたらすことが多い。
テクスチャのない面や反復的なパターンは欠落しやすく、再構成された3次元点雲の中に空洞として現れる。
さらに、複雑な構造を持つ物体は、撮像された画像と高密度に再構成された点雲との間の不一致に起因する詳細の歪みをもたらす傾向にある。
2次元のマルチビュー画像は、3Dポイントクラウドとの視覚的整合性を示し、シーンコンポーネントのより詳細な表現を提供し、これらの欠陥を自然に補うことができる。
これらの知見に基づき,LLMを用いた3次元シーン理解に多視点画像を活用する新しい3次元マルチモーダルフレームワークArgusを提案する。
一般に、Argusは入力(テキスト命令、2Dマルチビューイメージ、3Dポイントクラウド)として様々なモダリティを取り入れ、3Dタスクに対処するLLMの能力を拡大するため、3D Large Multimodal Foundation Model(3D-LMM)として扱うことができる。
Argusは、マルチビュー画像とカメラのポーズを、ビュー・アズ・シーン機能に統合し、これら3D機能と対話して、包括的で詳細な3Dシーンの埋め込みを作成する。
提案手法は,3次元点雲を再構成しながら情報損失を補正し,LLMが3次元世界をよりよく理解するのに役立つ。
大規模な実験により,本手法は下流タスクにおいて既存の3D-LMMよりも優れていることが示された。
関連論文リスト
- Ross3D: Reconstructive Visual Instruction Tuning with 3D-Awareness [73.72335146374543]
本稿では,3次元視覚指導を訓練手順に組み込んだ3次元視覚指導法(Ross3D)について紹介する。
Ross3Dは様々な3Dシーン理解ベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-04-02T16:59:55Z) - DSPNet: Dual-vision Scene Perception for Robust 3D Question Answering [106.96097136553105]
3次元質問回答(3D QA)では、テキストによって記述された位置の3Dシーンを理解し、周囲の環境を判断し、その状況下での質問に答える必要がある。
既存の手法は通常、純粋な3次元点雲からのグローバルなシーン認識に依存しており、マルチビュー画像からのリッチな局所テクスチャの詳細の重要性を見落としている。
本稿では,DSPNet(Dual-vision Scene Perception Network)を提案する。
論文 参考訳(メタデータ) (2025-03-05T05:13:53Z) - Unified Scene Representation and Reconstruction for 3D Large Language Models [40.693839066536505]
既存のアプローチは、基底真理(GT)幾何または補助モデルによって再構成された3次元シーンから点雲を抽出する。
凍結した2次元基礎モデルを用いて、Uni3DR2の3次元幾何学的および意味的認識表現特徴を抽出する。
我々の学習した3D表現は、再構築プロセスに貢献するだけでなく、LLMにとって貴重な知識も提供します。
論文 参考訳(メタデータ) (2024-04-19T17:58:04Z) - LL3DA: Visual Interactive Instruction Tuning for Omni-3D Understanding,
Reasoning, and Planning [42.61001274381612]
LL3DA(Large Language 3D Assistant)は、ポイントクラウドを直接入力とし、テキストインストラクションとビジュアルプロンプトの両方に応答する。
実験の結果,LL3DAは3Dキャプションと3D質問応答の両方において,様々な3次元視覚言語モデルを上回っていることがわかった。
論文 参考訳(メタデータ) (2023-11-30T16:00:23Z) - Point Cloud Self-supervised Learning via 3D to Multi-view Masked
Autoencoder [21.73287941143304]
Multi-Modality Masked AutoEncoders (MAE) 法は2次元画像と3次元点雲の両方を事前学習に利用している。
本稿では、3次元から多視点のマスク付きオートエンコーダを用いて、3次元点雲のマルチモーダル特性をフル活用する手法を提案する。
提案手法は,様々な下流タスクにおいて,最先端のタスクよりも大きなマージンで性能を向上する。
論文 参考訳(メタデータ) (2023-11-17T22:10:03Z) - Point-Bind & Point-LLM: Aligning Point Cloud with Multi-modality for 3D
Understanding, Generation, and Instruction Following [88.39360296377589]
ポイントクラウドを2次元画像,言語,音声,ビデオと整合させる3次元マルチモーダリティモデルであるPoint-Bindを紹介する。
また、3次元マルチモーダル命令に続く最初の3次元大規模言語モデル(LLM)であるPoint-LLMを提案する。
論文 参考訳(メタデータ) (2023-09-01T17:59:47Z) - 3D-LLM: Injecting the 3D World into Large Language Models [60.43823088804661]
大規模言語モデル (LLM) と視覚言語モデル (VLM) は、常識推論のような複数のタスクで優れていることが証明されている。
本稿では,大規模言語モデルに3Dワールドを注入し,新しい3D-LLMのファミリーを導入することを提案する。
具体的には、3D-LLMは3Dポイントクラウドとその機能を入力として取り込んで、さまざまな3D関連タスクを実行することができる。
論文 参考訳(メタデータ) (2023-07-24T17:59:02Z) - Anything-3D: Towards Single-view Anything Reconstruction in the Wild [61.090129285205805]
本稿では,一連の視覚言語モデルとSegment-Anythingオブジェクトセグメンテーションモデルを組み合わせた方法論的フレームワークであるAnything-3Dを紹介する。
提案手法では、BLIPモデルを用いてテキスト記述を生成し、Segment-Anythingモデルを用いて関心対象を効果的に抽出し、テキスト・画像拡散モデルを用いて物体を神経放射場へ持ち上げる。
論文 参考訳(メタデータ) (2023-04-19T16:39:51Z) - TriVol: Point Cloud Rendering via Triple Volumes [57.305748806545026]
我々は,高密度かつ軽量な3D表現であるTriVolをNeRFと組み合わせて,点雲から写実的な画像を描画する。
我々のフレームワークは、微調整なしでシーン/オブジェクトのカテゴリを描画できる優れた一般化能力を持っている。
論文 参考訳(メタデータ) (2023-03-29T06:34:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。