Fugu-MT 論文翻訳(概要): DeepSight: Bridging Depth Maps and Language with a Depth-Driven Multimodal Model

論文の概要: DeepSight: Bridging Depth Maps and Language with a Depth-Driven Multimodal Model

arxiv url: http://arxiv.org/abs/2603.06090v1
Date: Fri, 06 Mar 2026 09:43:12 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-09 13:17:45.500262
Title: DeepSight: Bridging Depth Maps and Language with a Depth-Driven Multimodal Model
Title（参考訳）: DeepSight: 深度マップと言語を深度駆動型マルチモーダルモデルでブリッジする
Authors: Hao Yang, Hongbo Zhang, Yanyan Zhao, Bing Qin,
Abstract要約: DeepSightは3次元シーン理解を強化するために設計された最初の専用深度MLLMである。 RGB画像エンコーディングをテキストと整合させる従来の手法とは異なり,本手法は深度画像の特徴を生かしている。
参考スコア（独自算出の注目度）: 43.46585348441687
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal large language models (MLLMs) have achieved impressive performance across various tasks such as image captioning and visual question answer(VQA); however, they often struggle to accurately interpret depth information inherent in visual data. In this work, we introduce DeepSight, the first dedicated depth MLLM designed to enhance three-dimensional scene understanding. Unlike conventional methods that align RGB image encodings with text, our approach takes advantage of the unique characteristics of depth images: single-channel grayscale images where the pixel values directly reflect depth cues to improve spatial reasoning. To address challenges associated with limited depth data and the inadequacy of simple channel replication, we construct a novel depth image-text pair dataset and a depth instruction dataset. Depth maps are generated from visual images using the GLPN model, and GPT-4 is employed to curate corresponding depth instructions, an approach validated by LLaVA. Additionally, we modify the ViT encoder in CLIP to incorporate local object information, thereby capturing the subtle continuous variations of depth more effectively. To evaluate the performance of our model, we develop a comprehensive depth question answer benchmark based on existing depth image datasets, which rigorously assesses understanding in typical depth map scenarios. Experimental results demonstrate that DeepSight significantly enhances depth perception and downstream task performance, marking a substantial step forward in multimodal three-dimensional understanding.
Abstract（参考訳）: マルチモーダル大言語モデル(MLLM)は、画像キャプションや視覚的質問応答(VQA)といった様々なタスクにおいて印象的な性能を達成しているが、視覚データに固有の深度情報を正確に解釈することはしばしば困難である。本稿では,3次元シーン理解を強化するために設計された,最初の専用深度MLLMであるDeepSightを紹介する。 RGB画像エンコーディングをテキストと整合させる従来の手法とは異なり、我々の手法は深度画像のユニークな特徴を生かしている。制限された深度データと単純なチャネル複製の不十分さに対処するため,新しい深度画像テキストペアデータセットと深度指示データセットを構築した。深度マップはGLPNモデルを用いて視覚画像から生成され、GPT-4はLLaVAで検証されたアプローチである対応する深度命令のキュレートに使用される。さらに,CLIP の ViT エンコーダを改良してローカルオブジェクト情報を組み込むことで,奥行きの微妙な連続的な変化をより効果的に捉えることができる。モデルの性能を評価するため,既存の深度画像データセットに基づく包括的深度質問応答ベンチマークを開発し,典型的な深度マップのシナリオにおける理解度を厳密に評価する。実験結果から,DeepSightは深度知覚と下流タスク性能を著しく向上させ,マルチモーダルな3次元理解において重要な一歩を踏み出した。

関連論文リスト

UDPNet: Unleashing Depth-based Priors for Robust Image Dehazing [77.10640210751981]
UDPNetは、大規模で事前訓練された深度推定モデルDepthAnything V2から深度に基づく事前情報を活用する一般的なフレームワークである。提案手法は,様々なシナリオにまたがる深度認識デハージングのための新しいベンチマークを確立する。
論文参考訳（メタデータ） (2026-01-11T13:29:02Z)
FreqPDE: Rethinking Positional Depth Embedding for Multi-View 3D Object Detection Transformers [91.59069344768858]
周波数対応位置深度埋め込み (FreqPDE) を導入し, 空間情報と2次元画像特徴を付加して3次元検出変換器デコーダを提案する。 FreqPDEは2D画像特徴と3D位置埋め込みを組み合わせることで、クエリデコーディングのための3D深度認識機能を生成する。
論文参考訳（メタデータ） (2025-10-17T07:36:54Z)
Pixel-Aligned Multi-View Generation with Depth Guided Decoder [86.1813201212539]
画素レベルの画像・マルチビュー生成のための新しい手法を提案する。従来の作業とは異なり、潜伏映像拡散モデルのVAEデコーダにマルチビュー画像にアテンション層を組み込む。本モデルにより,マルチビュー画像間の画素アライメントが向上する。
論文参考訳（メタデータ） (2024-08-26T04:56:41Z)
Depth-guided Texture Diffusion for Image Semantic Segmentation [47.46257473475867]
本稿では,この課題を効果的に解決するディープスガイド型テクスチャ拡散手法を提案する。本手法は,テクスチャ画像を作成するために,エッジやテクスチャから低レベル特徴を抽出する。この拡張深度マップを元のRGB画像と結合した特徴埋め込みに統合することにより,深度マップと画像との相違を効果的に橋渡しする。
論文参考訳（メタデータ） (2024-08-17T04:55:03Z)
Learning to Adapt CLIP for Few-Shot Monocular Depth Estimation [31.34615135846137]
単眼深度推定に視覚言語モデルを適用することを学習する,数発のショットベース手法を提案する。具体的には、異なるシーンに異なる深度ビンを割り当て、推論中にモデルによって選択できる。トレーニング用シーンあたりのイメージが1つしかないため、NYU V2とKITTIデータセットによる大規模な実験結果から、我々の手法が従来の最先端の手法を最大10.6%上回っていることが示された。
論文参考訳（メタデータ） (2023-11-02T06:56:50Z)
RigNet++: Semantic Assisted Repetitive Image Guided Network for Depth Completion [31.70022495622075]
画像案内ネットワークにおける繰り返し設計を探索し、徐々に十分に深度を復元する。前者では,複雑な環境の識別画像の特徴を抽出するために,高密度繰り返し時間ガラスネットワーク(DRHN)を設計する。後者では,動的畳み込みに基づく反復誘導(RG)モジュールを提案する。さらに,領域認識型空間伝搬ネットワーク(RASPN)を提案する。
論文参考訳（メタデータ） (2023-09-01T09:11:20Z)
ARAI-MVSNet: A multi-view stereo depth estimation network with adaptive depth range and depth interval [19.28042366225802]
マルチビューステレオ(MVS)は幾何学的コンピュータビジョンの基本的な問題である。適応的な全画素深度範囲と深度間隔を実現するために,新しい多段粗大化フレームワークを提案する。我々のモデルは最先端の性能を達成し、競争一般化能力を得る。
論文参考訳（メタデータ） (2023-08-17T14:52:11Z)
Single Image Depth Estimation Trained via Depth from Defocus Cues [105.67073923825842]
単一のRGB画像から深度を推定することはコンピュータビジョンの基本的な課題である。この作業では、異なる視点ではなく、フォーカスキューからの奥行きに依存しています。我々は,KITTIとMake3Dデータセットの教師あり手法と同等な結果を提示し,教師なし学習手法より優れていることを示す。
論文参考訳（メタデータ） (2020-01-14T20:22:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。