論文の概要: Are Vision-Language Models Truly Understanding Multi-vision Sensor?
- arxiv url: http://arxiv.org/abs/2412.20750v1
- Date: Mon, 30 Dec 2024 06:44:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:06:07.668497
- Title: Are Vision-Language Models Truly Understanding Multi-vision Sensor?
- Title(参考訳): ビジョンランゲージモデルはマルチビジョンセンサーを真に理解しているか?
- Authors: Sangyun Chung, Youngjoon Yu, Youngchae Chee, Se Yeon Kim, Byung-Kwan Lee, Yong Man Ro,
- Abstract要約: 大規模視覚言語モデル(VLM)は、視覚入力をテキストと整列させることによって進歩している。
実世界のアプリケーションでは、熱、深度、X線情報といった多様なマルチビジョンセンサーデータの理解が不可欠である。
- 参考スコア(独自算出の注目度): 38.70868031001611
- License:
- Abstract: Large-scale Vision-Language Models (VLMs) have advanced by aligning vision inputs with text, significantly improving performance in computer vision tasks. Moreover, for VLMs to be effectively utilized in real-world applications, an understanding of diverse multi-vision sensor data, such as thermal, depth, and X-ray information, is essential. However, we find that current VLMs process multi-vision sensor images without deep understanding of sensor information, disregarding each sensor's unique physical properties. This limitation restricts their capacity to interpret and respond to complex questions requiring multi-vision sensor reasoning. To address this, we propose a novel Multi-vision Sensor Perception and Reasoning (MS-PR) benchmark, assessing VLMs on their capacity for sensor-specific reasoning. Moreover, we introduce Diverse Negative Attributes (DNA) optimization to enable VLMs to perform deep reasoning on multi-vision sensor tasks, helping to bridge the core information gap between images and sensor data. Extensive experimental results validate that the proposed DNA method can significantly improve the multi-vision sensor reasoning for VLMs.
- Abstract(参考訳): 大規模ビジョンランゲージモデル(VLM)は、視覚入力をテキストと整列させ、コンピュータビジョンタスクの性能を大幅に向上させた。
さらに, VLMを実世界の応用に活用するためには, 熱, 深度, X線情報などの多様なマルチビジョンセンサデータの理解が不可欠である。
しかし,現在のVLMはセンサ情報を深く理解することなく,各センサ固有の物理的特性を無視したマルチビジョンセンサ画像を処理する。
この制限は、多次元センサ推論を必要とする複雑な質問を解釈し、応答する能力を制限する。
そこで本研究では,センサ固有の推論能力に基づいて,VLMを評価可能なマルチビジョンセンサ認識・推論(MS-PR)ベンチマークを提案する。
さらに,マルチビジョンセンサタスクにおいて,VLMの深い推論を可能にするために,DNA最適化を導入し,画像とセンサデータのコア情報ギャップを埋めることを支援する。
広範囲な実験結果から,提案手法がVLMのマルチビジョンセンサ推論を著しく改善する可能性が示唆された。
関連論文リスト
- MSSIDD: A Benchmark for Multi-Sensor Denoising [55.41612200877861]
我々は,マルチセンサSIDDデータセットという新しいベンチマークを導入する。これは,認知モデルのセンサ伝達性を評価するために設計された,最初の生ドメインデータセットである。
そこで本研究では,センサに不変な特徴を認知モデルで学習することのできるセンサ一貫性トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-18T13:32:59Z) - SensorBench: Benchmarking LLMs in Coding-Based Sensor Processing [6.8009140511761546]
大規模言語モデル(LLM)は、知覚データを処理する上で有望な能力を持ち、センサーシステムを開発するための副操縦士としての可能性を示している。
我々は,定量化のための総合的なベンチマークであるSensorBenchを構築した。
以上の結果から,LLMは単純なタスクでかなりの習熟度を示す一方で,構成タスクの処理において固有の課題に直面していることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-14T17:21:39Z) - SensorLLM: Aligning Large Language Models with Motion Sensors for Human Activity Recognition [9.072495000412943]
我々は、Large Language Models(LLM)が人間の活動認識(HAR)のような時系列タスクを理解できるようにすることで、ウェアラブルセンサー技術とパーソナライズされたAIアシスタントのギャップを埋める。
センサデータタスクに対するLLMのポテンシャルを解放する2段階フレームワークであるSensorLLMを紹介する。
我々は,SensorLLMが効果的なセンサ学習者,推論者,学習者へと進化し,HARタスクのための多様なデータセットをまたいで一般化できることを示す。
論文 参考訳(メタデータ) (2024-10-14T15:30:41Z) - SPARK: Multi-Vision Sensor Perception and Reasoning Benchmark for Large-scale Vision-Language Models [43.79587815909473]
本稿では,SPARKと呼ばれるマルチビジョンセンサ知覚と推論ベンチマークの構築を目的とする。
我々は6,248個の視覚言語検定サンプルを作成し,多視点感覚知覚と多視点感覚推論を物理センサ知識の熟練度に基づいて検討した。
その結果、ほとんどのモデルでは、様々な範囲で多視点感覚理論の欠陥が見られた。
論文 参考訳(メタデータ) (2024-08-22T03:59:48Z) - By My Eyes: Grounding Multimodal Large Language Models with Sensor Data via Visual Prompting [24.39281384670957]
マルチモーダル大言語モデル(MLLM)を用いたセンサデータに対する視覚的プロンプト手法を提案する。
我々は,MLLMの視覚的プロンプトを設計し,ターゲットの知覚タスク記述と並行して可視化されたセンサデータを活用する。
本研究は,4つの知覚モダリティを含む9つの感覚タスクに対するアプローチを評価し,テキストベースのプロンプトよりも平均10%高い精度を達成する。
論文 参考訳(メタデータ) (2024-07-15T01:33:54Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。
具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。
MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - Learning Online Multi-Sensor Depth Fusion [100.84519175539378]
SenFuNetは、センサ固有のノイズと外れ値統計を学習するディープフュージョンアプローチである。
実世界のCoRBSとScene3Dデータセットで様々なセンサーの組み合わせで実験を行う。
論文 参考訳(メタデータ) (2022-04-07T10:45:32Z) - Semantics-aware Adaptive Knowledge Distillation for Sensor-to-Vision
Action Recognition [131.6328804788164]
本稿では,視覚・センサ・モダリティ(動画)における行動認識を強化するためのフレームワーク,Semantics-Aware Adaptive Knowledge Distillation Networks (SAKDN)を提案する。
SAKDNは複数のウェアラブルセンサーを教師のモダリティとして使用し、RGB動画を学生のモダリティとして使用している。
論文 参考訳(メタデータ) (2020-09-01T03:38:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。