論文の概要: SSR: Enhancing Depth Perception in Vision-Language Models via Rationale-Guided Spatial Reasoning
- arxiv url: http://arxiv.org/abs/2505.12448v2
- Date: Wed, 21 May 2025 03:34:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 13:19:52.325979
- Title: SSR: Enhancing Depth Perception in Vision-Language Models via Rationale-Guided Spatial Reasoning
- Title(参考訳): SSR:Rationale-Guided Space Reasoningによる視覚言語モデルにおける深度知覚の促進
- Authors: Yang Liu, Ming Ma, Xiaomin Yu, Pengxiang Ding, Han Zhao, Mingyang Sun, Siteng Huang, Donglin Wang,
- Abstract要約: 本稿では,生深度データを構造化・解釈可能なテキスト論理に変換する新しいフレームワークを提案する。
これらのテキストの有理は、空間的推論能力を著しく向上させる意味のある中間表現として機能する。
中間空間推論アノテーションを付加した100万スケールの視覚言語推論データセットであるSSR-CoTを提案する。
- 参考スコア(独自算出の注目度): 34.31268708448338
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite impressive advancements in Visual-Language Models (VLMs) for multi-modal tasks, their reliance on RGB inputs limits precise spatial understanding. Existing methods for integrating spatial cues, such as point clouds or depth, either require specialized sensors or fail to effectively exploit depth information for higher-order reasoning. To this end, we propose a novel Spatial Sense and Reasoning method, dubbed SSR, a novel framework that transforms raw depth data into structured, interpretable textual rationales. These textual rationales serve as meaningful intermediate representations to significantly enhance spatial reasoning capabilities. Additionally, we leverage knowledge distillation to compress the generated rationales into compact latent embeddings, which facilitate resource-efficient and plug-and-play integration into existing VLMs without retraining. To enable comprehensive evaluation, we introduce a new dataset named SSR-CoT, a million-scale visual-language reasoning dataset enriched with intermediate spatial reasoning annotations, and present SSRBench, a comprehensive multi-task benchmark. Extensive experiments on multiple benchmarks demonstrate SSR substantially improves depth utilization and enhances spatial reasoning, thereby advancing VLMs toward more human-like multi-modal understanding. Our project page is at https://yliu-cs.github.io/SSR.
- Abstract(参考訳): マルチモーダルタスクのためのVisual-Language Models (VLM) の目覚ましい進歩にもかかわらず、RGB入力への依存は正確な空間的理解を制限している。
点雲や深度などの空間的手がかりを統合する既存の方法は、特殊なセンサーを必要とするか、高次推論のために奥行き情報を効果的に活用できないかのいずれかである。
そこで本研究では,生深度データを構造化・解釈可能なテキスト論理に変換する新しいフレームワークであるSSRを提案する。
これらのテキストの有理は、空間的推論能力を著しく向上させる意味のある中間表現として機能する。
さらに,知識蒸留を利用して生成した論理をコンパクトな潜伏埋め込みに圧縮し,資源効率とプラグアンドプレイを既存のVLMに再学習することなく統合する。
包括的評価を実現するために,SSR-CoTという新たなデータセット,中間空間推論アノテーションを付加した100万規模の視覚言語推論データセット,および総合マルチタスクベンチマークであるSSRBenchを紹介する。
複数のベンチマークでの大規模な実験により、SSRは深度利用を大幅に改善し、空間的推論を強化し、VLMをより人間的なマルチモーダル理解へと進めることを示した。
私たちのプロジェクトページはhttps://yliu-cs.github.io/SSR.comです。
関連論文リスト
- Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models [14.442394137843923]
本稿では,まず空間的推論のコア要素を記述した詳細な分析を行う。
次に、これらのモデルの性能を、合成画像と実画像の両方で評価する。
論文 参考訳(メタデータ) (2025-03-25T14:34:06Z) - EmbodiedVSR: Dynamic Scene Graph-Guided Chain-of-Thought Reasoning for Visual Spatial Tasks [24.41705039390567]
EmbodiedVSR (Embodied Visual Space Reasoning) は動的シーングラフ誘導型Chain-of-Thought (CoT)推論を統合する新しいフレームワークである。
本手法はタスク固有の微調整なしでゼロショット空間推論を可能にする。
実験により,我々のフレームワークは,既存のMLLM法よりも精度と推論コヒーレンスにおいて優れていることが示された。
論文 参考訳(メタデータ) (2025-03-14T05:06:07Z) - Leveraging Stable Diffusion for Monocular Depth Estimation via Image Semantic Encoding [1.0445560141983634]
視覚的特徴から直接文脈情報を抽出する画像に基づくセマンティック埋め込みを提案する。
提案手法は,屋外シーンの処理におけるCLIP埋め込みの欠点に対処しながら,最先端モデルに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2025-02-01T15:37:22Z) - Agent Journey Beyond RGB: Unveiling Hybrid Semantic-Spatial Environmental Representations for Vision-and-Language Navigation [15.302043040651368]
自然言語の指示に基づいて見えない環境をナビゲートすることは、自我中心のエージェントにとって依然として困難である。
多様な視点からエージェントが環境を接地することを奨励するために,多種多様なセマンティック理解と空間認識アーキテクチャを提案する。
実験により、SUSAのハイブリッドセマンティック空間表現はナビゲーション性能を効果的に向上させることが示された。
論文 参考訳(メタデータ) (2024-12-09T13:10:28Z) - LHRS-Bot-Nova: Improved Multimodal Large Language Model for Remote Sensing Vision-Language Interpretation [21.91073335335992]
リモートセンシング(RS)画像の理解に特化したMLLMであるLHRS-Bot-Novaを紹介する。
LHRS-Bot-Novaは拡張ビジョンエンコーダと新しいブリッジ層を備えており、効率的なビジュアル圧縮と言語ビジョンアライメントを実現している。
RS画像理解タスクにおけるLHRS-Bot-Novaの優れた性能を示す大規模な実験を行った。
論文 参考訳(メタデータ) (2024-11-14T09:23:40Z) - SpatialRGPT: Grounded Spatial Reasoning in Vision Language Models [68.13636352687257]
VLMの空間知覚と推論能力を高めるために空間領域GPT(SpatialRGPT)を導入する。
推測中、ユーザが指定した領域の提案が提供されると、SpatialRGPTは相対的な方向と距離を正確に知覚できる。
本研究では,空間的推論タスクにおける局所的プロンプトと非局所的プロンプトの双方において,空間的RGPTにより性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2024-06-03T17:59:06Z) - Large Language Models for Information Retrieval: A Survey [58.30439850203101]
情報検索は、項ベースの手法から高度なニューラルモデルとの統合へと進化してきた。
近年の研究では、大規模言語モデル(LLM)を活用してIRシステムの改善が試みられている。
LLMとIRシステムの合流点を探索し、クエリリライト、リトリバー、リランカー、リーダーといった重要な側面を含む。
論文 参考訳(メタデータ) (2023-08-14T12:47:22Z) - Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual
Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。
既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。
本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文 参考訳(メタデータ) (2023-05-12T00:13:17Z) - A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented,
Temporal and Depth-aware design [77.34726150561087]
我々は、自動運転車のビジョンの文脈において、Deep Semanticの最も関連性があり最近の進歩について調査を行う。
私たちの主な目的は、それぞれの視点で直面している主要な方法、利点、制限、結果、課題に関する包括的な議論を提供することです。
論文 参考訳(メタデータ) (2023-03-08T01:29:55Z) - High-resolution Depth Maps Imaging via Attention-based Hierarchical
Multi-modal Fusion [84.24973877109181]
誘導DSRのための新しい注意に基づく階層型マルチモーダル融合ネットワークを提案する。
本手法は,再現精度,動作速度,メモリ効率の点で最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-04T03:28:33Z) - Accurate RGB-D Salient Object Detection via Collaborative Learning [101.82654054191443]
RGB-Dサリエンシ検出は、いくつかの課題シナリオにおいて素晴らしい能力を示している。
本稿では,エッジ,深度,塩分濃度をより効率的に活用する新しい協調学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-23T04:33:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。