Fugu-MT 論文翻訳(概要): SpatialRGPT: Grounded Spatial Reasoning in Vision Language Models

論文の概要: SpatialRGPT: Grounded Spatial Reasoning in Vision Language Models

arxiv url: http://arxiv.org/abs/2406.01584v3
Date: Tue, 15 Oct 2024 01:16:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:33.207312
Title: SpatialRGPT: Grounded Spatial Reasoning in Vision Language Models
Title（参考訳）: 空間RGPT:視覚言語モデルにおける基底空間推論
Authors: An-Chieh Cheng, Hongxu Yin, Yang Fu, Qiushan Guo, Ruihan Yang, Jan Kautz, Xiaolong Wang, Sifei Liu,
Abstract要約: VLMの空間知覚と推論能力を高めるために空間領域GPT(SpatialRGPT)を導入する。推測中、ユーザが指定した領域の提案が提供されると、SpatialRGPTは相対的な方向と距離を正確に知覚できる。本研究では,空間的推論タスクにおける局所的プロンプトと非局所的プロンプトの双方において,空間的RGPTにより性能が著しく向上することを示す。
参考スコア（独自算出の注目度）: 68.13636352687257
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision Language Models (VLMs) have demonstrated remarkable performance in 2D vision and language tasks. However, their ability to reason about spatial arrangements remains limited. In this work, we introduce Spatial Region GPT (SpatialRGPT) to enhance VLMs' spatial perception and reasoning capabilities. SpatialRGPT advances VLMs' spatial understanding through two key innovations: (1) a data curation pipeline that enables effective learning of regional representation from 3D scene graphs, and (2) a flexible plugin module for integrating depth information into the visual encoder of existing VLMs. During inference, when provided with user-specified region proposals, SpatialRGPT can accurately perceive their relative directions and distances. Additionally, we propose SpatialRGBT-Bench, a benchmark with ground-truth 3D annotations encompassing indoor, outdoor, and simulated environments, for evaluating 3D spatial cognition in VLMs. Our results demonstrate that SpatialRGPT significantly enhances performance in spatial reasoning tasks, both with and without local region prompts. The model also exhibits strong generalization capabilities, effectively reasoning about complex spatial relations and functioning as a region-aware dense reward annotator for robotic tasks. Code, dataset, and benchmark are released at https://www.anjiecheng.me/SpatialRGPT
Abstract（参考訳）: 視覚言語モデル(VLM)は2次元視覚と言語タスクにおいて顕著な性能を示した。しかし、空間配置を推論する能力は依然として限られている。本研究では,VLMの空間知覚と推論能力を高めるために空間領域GPT(SpatialRGPT)を導入する。空間RGPTは,(1)3次元シーングラフからの地域表現の効果的な学習を可能にするデータキュレーションパイプライン,(2)既存のVLMのビジュアルエンコーダに奥行き情報を統合する柔軟なプラグインモジュールである。推測中、ユーザが指定した領域の提案が提供されると、SpatialRGPTは相対的な方向と距離を正確に知覚できる。さらに,室内,屋外,シミュレートされた環境を含む地上3次元アノテーションを用いたベンチマークであるSpatialRGBT-Benchを提案し,VLMにおける3次元空間認識の評価を行った。本研究では,空間的推論タスクにおける局所的プロンプトと非局所的プロンプトの双方において,空間的RGPTにより性能が著しく向上することを示す。このモデルはまた強力な一般化能力を示し、複雑な空間関係を効果的に推論し、ロボットタスクのための地域対応の高密度報酬アノテータとして機能する。コード、データセット、ベンチマークはhttps://www.anjiecheng.me/SpatialRGPTで公開されている。

関連論文リスト

Chain-of-Visual-Thought: Teaching VLMs to See and Think Better with Continuous Visual Tokens [54.18057944158818]
Chain-of-Visual-Thought (COVT)は、ビジョンランゲージモデル(VLM)が連続的な視覚トークンを通じて推論できるようにするフレームワークである。約20枚のトークンからなる小さな予算の中で、COVTは軽量ビジョンの専門家から知識を抽出する。トレーニング中、COVTを持つVLMは視覚トークンを自動回帰予測し、密集した監視信号を再構築する。
論文参考訳（メタデータ） (2025-11-24T18:55:19Z)
Generalized Decoupled Learning for Enhancing Open-Vocabulary Dense Perception [71.26728044621458]
DeCLIPは、CLIPを強化する新しいフレームワークで、自己認識モジュールを分離して、それぞれコンテンツ’と“コンテキスト’の機能を取得する。 2D検出とセグメンテーション、3Dインスタンスのセグメンテーション、ビデオインスタンスのセグメンテーション、6Dオブジェクトのポーズ推定など、幅広いタスクにわたる最先端のパフォーマンスを一貫して達成する。
論文参考訳（メタデータ） (2025-08-15T06:43:51Z)
Spatial-ORMLLM: Improve Spatial Relation Understanding in the Operating Room with Multimodal Large Language Model [1.8302608976873713]
空間ORMLLMは手術室における3次元空間推論のための視覚言語モデルである。推定アルゴリズムにより抽出された3次元空間知識の豊富な2次元モダリティ入力を組み込む。専門家のアノテーションやセンサー入力を使わずに、堅牢な3Dシーン推論を提供する。
論文参考訳（メタデータ） (2025-08-11T17:17:20Z)
A Neural Representation Framework with LLM-Driven Spatial Reasoning for Open-Vocabulary 3D Visual Grounding [78.99798110890157]
Open-vocabulary 3D visual groundingは、自由形式の言語クエリに基づいてターゲットオブジェクトをローカライズすることを目的としている。既存の言語フィールド手法は、言語クエリにおける空間的関係を利用してインスタンスを正確にローカライズするのに苦労する。本研究では,大規模言語モデル(LLM)に基づく空間推論を用いたニューラル表現に基づく新しいフレームワークであるSpatialReasonerを提案する。
論文参考訳（メタデータ） (2025-07-09T10:20:38Z)
ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models [47.237216851265316]
視覚言語モデル (VLM) は視覚的内容の理解と推論において顕著な能力を示した。現在のVLMは、主に自我中心の空間的推論(カメラの観点から)に優れるが、同中心の視点に一般化することができない。マルチ視点空間位置認識評価に特化して設計された,初の総合的なベンチマークであるViewSpatial-Benchを紹介する。
論文参考訳（メタデータ） (2025-05-27T17:59:26Z)
Agentic 3D Scene Generation with Spatially Contextualized VLMs [67.31920821192323]
本稿では,複雑な3D環境の生成,理解,編集を可能にする新しいパラダイムを提案する。我々は,VLMが空間コンテキストから反復的に読み取って更新するエージェント型3Dシーン生成パイプラインを開発した。その結果,我々のフレームワークは多様かつ困難な入力を処理でき,事前の作業では観測できないような一般化のレベルを達成することができることがわかった。
論文参考訳（メタデータ） (2025-05-26T15:28:17Z)
From Flatland to Space: Teaching Vision-Language Models to Perceive and Reason in 3D [32.547597353581594]
本研究では,3次元地上構造を持つシーンデータ上に構築された新しい2次元空間データ生成およびアノテーションパイプラインを提案する。複数の公開データセットにまたがって数千のシーンから生成される大規模データセットであるSPAR-7Mを構築した。さらに,空間能力をより包括的に評価するためのベンチマークであるSPAR-Benchを紹介する。
論文参考訳（メタデータ） (2025-03-29T04:51:50Z)
Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models [14.442394137843923]
本稿では,まず空間的推論のコア要素を記述した詳細な分析を行う。次に、これらのモデルの性能を、合成画像と実画像の両方で評価する。
論文参考訳（メタデータ） (2025-03-25T14:34:06Z)
LayoutVLM: Differentiable Optimization of 3D Layout via Vision-Language Models [57.92316645992816]
空間的推論は人間の認知の基本的側面であり、三次元空間における物体の直感的な理解と操作を可能にする。視覚言語モデル(VLM)のセマンティック知識を活用するフレームワークおよびシーンレイアウト表現であるLayoutVLMを紹介する。本稿では,既存のシーンデータセットから抽出したシーンレイアウト表現を用いた微調整VLMによる推論性能の向上を実証する。
論文参考訳（メタデータ） (2024-12-03T06:15:04Z)
Sparkle: Mastering Basic Spatial Capabilities in Vision Language Models Elicits Generalization to Composite Spatial Reasoning [19.399925987942204]
視覚言語モデル (VLM) は、幅広い下流タスクにおいて印象的なパフォーマンスを示している。評価の結果, 現状のVLMは複合空間推論問題に対して, しばしば不確実かつ不正確な応答を生じさせることが判明した。そこで本研究では,基本空間能力のみに基づいてモデルをトレーニングすることにより,VLM内の2次元空間推論を効果的に向上する手法を提案する。
論文参考訳（メタデータ） (2024-10-21T16:26:09Z)
Structured Spatial Reasoning with Open Vocabulary Object Detectors [2.089191490381739]
オブジェクト間の空間的関係に関する推論は多くの実世界のロボット作業において不可欠である。我々は、リッチな3次元幾何学的特徴と最先端のオープンボキャブラリオブジェクト検出器を統合する構造的確率的アプローチを導入する。この手法は、空間推論タスクにおける最先端ビジョン・言語モデル(VLM)のゼロショット性能を評価・比較する。
論文参考訳（メタデータ） (2024-10-09T19:37:01Z)
MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文参考訳（メタデータ） (2024-06-13T17:59:30Z)
Volumetric Environment Representation for Vision-Language Navigation [66.04379819772764]
視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。本研究では,物理世界を3次元構造細胞にボクセル化するボリューム環境表現(VER)を提案する。 VERは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。
論文参考訳（メタデータ） (2024-03-21T06:14:46Z)
SpatialPIN: Enhancing Spatial Reasoning Capabilities of Vision-Language Models through Prompting and Interacting 3D Priors [42.85605789984155]
空間的視覚的質問応答(VQA)において、最先端の空間的推論強化VLMを訓練する本研究では,VLMの空間的推論能力を高めるためのフレームワークであるSpatialPINを提案する。我々の空間推論型VLMは、空間的VQAの様々な形態でうまく機能し、ピックやスタック、軌道計画といった下流ロボット作業に役立てることができる。
論文参考訳（メタデータ） (2024-03-18T17:38:29Z)
RegionGPT: Towards Region Understanding Vision Language Model [88.42271128373191]
RegionGPT(RGPT)は、複雑な地域レベルのキャプションと理解のために設計された新しいフレームワークである。我々は、詳細な地域レベルのキャプションを備えたトレーニングセットを充実させる、自動領域キャプションデータ生成パイプラインを開発する。本研究では,領域レベルのタスクに対して,汎用的なRGPTモデルを効果的に適用し,性能を大幅に向上させることを実証する。
論文参考訳（メタデータ） (2024-03-04T18:58:08Z)
SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities [59.39858959066982]
空間的関係についての理解と推論は、視覚質問応答(VQA)とロボット工学の基本的な能力である。我々は,1000万枚の実画像に対して,最大20億個のVQAサンプルをスケール可能な3次元空間VQAデータ自動生成フレームワークを開発した。このようなデータに基づいてVLMを訓練することにより、定性的空間的VQAと定量的空間的VQAの両方において、その能力を大幅に向上する。
論文参考訳（メタデータ） (2024-01-22T18:01:01Z)
Inherent limitations of LLMs regarding spatial information [6.395912853122759]
本稿では,空間推論やナビゲーション関連タスクにおけるChatGPTと類似モデルの性質的制約について検討する。このデータセットは、空間点のプロット、二次元(2次元)空間での計画経路、三次元(3次元)環境における開発経路の3つの重要なタスクで構成されている。評価の結果,空間的理解におけるモデルの能力と限界について重要な知見が得られた。
論文参考訳（メタデータ） (2023-12-05T16:02:20Z)
PGL: Prior-Guided Local Self-supervised Learning for 3D Medical Image Segmentation [87.50205728818601]
本稿では,潜在特徴空間における局所的一貫性を学習するPGL(PresideedGuided Local)自己教師モデルを提案する。我々のPGLモデルは、局所領域の特異な表現を学習し、したがって構造情報を保持できる。
論文参考訳（メタデータ） (2020-11-25T11:03:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。