論文の概要: Are Vision-Language Models Truly Understanding Multi-vision Sensor?
- arxiv url: http://arxiv.org/abs/2412.20750v1
- Date: Mon, 30 Dec 2024 06:44:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 22:07:02.724575
- Title: Are Vision-Language Models Truly Understanding Multi-vision Sensor?
- Title(参考訳): ビジョンランゲージモデルはマルチビジョンセンサーを真に理解しているか?
- Authors: Sangyun Chung, Youngjoon Yu, Youngchae Chee, Se Yeon Kim, Byung-Kwan Lee, Yong Man Ro,
- Abstract要約: 大規模視覚言語モデル(VLM)は、視覚入力をテキストと整列させることによって進歩している。
実世界のアプリケーションでは、熱、深度、X線情報といった多様なマルチビジョンセンサーデータの理解が不可欠である。
- 参考スコア(独自算出の注目度): 38.70868031001611
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale Vision-Language Models (VLMs) have advanced by aligning vision inputs with text, significantly improving performance in computer vision tasks. Moreover, for VLMs to be effectively utilized in real-world applications, an understanding of diverse multi-vision sensor data, such as thermal, depth, and X-ray information, is essential. However, we find that current VLMs process multi-vision sensor images without deep understanding of sensor information, disregarding each sensor's unique physical properties. This limitation restricts their capacity to interpret and respond to complex questions requiring multi-vision sensor reasoning. To address this, we propose a novel Multi-vision Sensor Perception and Reasoning (MS-PR) benchmark, assessing VLMs on their capacity for sensor-specific reasoning. Moreover, we introduce Diverse Negative Attributes (DNA) optimization to enable VLMs to perform deep reasoning on multi-vision sensor tasks, helping to bridge the core information gap between images and sensor data. Extensive experimental results validate that the proposed DNA method can significantly improve the multi-vision sensor reasoning for VLMs.
- Abstract(参考訳): 大規模ビジョンランゲージモデル(VLM)は、視覚入力をテキストと整列させ、コンピュータビジョンタスクの性能を大幅に向上させた。
さらに, VLMを実世界の応用に活用するためには, 熱, 深度, X線情報などの多様なマルチビジョンセンサデータの理解が不可欠である。
しかし,現在のVLMはセンサ情報を深く理解することなく,各センサ固有の物理的特性を無視したマルチビジョンセンサ画像を処理する。
この制限は、多次元センサ推論を必要とする複雑な質問を解釈し、応答する能力を制限する。
そこで本研究では,センサ固有の推論能力に基づいて,VLMを評価可能なマルチビジョンセンサ認識・推論(MS-PR)ベンチマークを提案する。
さらに,マルチビジョンセンサタスクにおいて,VLMの深い推論を可能にするために,DNA最適化を導入し,画像とセンサデータのコア情報ギャップを埋めることを支援する。
広範囲な実験結果から,提案手法がVLMのマルチビジョンセンサ推論を著しく改善する可能性が示唆された。
関連論文リスト
- MGCR-Net:Multimodal Graph-Conditioned Vision-Language Reconstruction Network for Remote Sensing Change Detection [55.702662643521265]
マルチモーダルデータのセマンティックインタラクション機能を検討するために,マルチモーダルグラフ条件付き視覚言語再構成ネットワーク(MGCR-Net)を提案する。
4つの公開データセットによる実験結果から,MGCRは主流CD法に比べて優れた性能を示した。
論文 参考訳(メタデータ) (2025-08-03T02:50:08Z) - Response Wide Shut? Surprising Observations in Basic Vision Language Model Capabilities [54.94982467313341]
視覚言語モデル(VLM)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。
我々は、設計のどのコンポーネントが欠落しているかを調査する一連のテストを構築することで、基本的な視覚的タスクにおけるSoTA VLMの限界を理解することにしました。
論文 参考訳(メタデータ) (2025-07-10T15:26:41Z) - HoloLLM: Multisensory Foundation Model for Language-Grounded Human Sensing and Reasoning [14.038083767470019]
スマートホームで活動する身体エージェントは、多様な感覚入力を通じて人間の行動を理解し、自然言語を介してコミュニケーションする必要がある。
本稿では,Multimodal Large Language Model (MLLM) であるHoloLLMを紹介する。
また,HoloLLMは既存のMLLMよりも優れており,言語による人間の知覚精度を最大30%向上することを示した。
論文 参考訳(メタデータ) (2025-05-23T09:06:09Z) - AuxDet: Auxiliary Metadata Matters for Omni-Domain Infrared Small Target Detection [58.67129770371016]
シーン認識最適化のためのテキストメタデータを組み込むことにより、IRSTDパラダイムを再定義する新しいIRSTDフレームワークを提案する。
AuxDetは最先端の手法を一貫して上回り、堅牢性と正確性を改善する上で補助情報の重要な役割を検証している。
論文 参考訳(メタデータ) (2025-05-21T07:02:05Z) - SSR: Enhancing Depth Perception in Vision-Language Models via Rationale-Guided Spatial Reasoning [34.31268708448338]
本稿では,生深度データを構造化・解釈可能なテキスト論理に変換する新しいフレームワークを提案する。
これらのテキストの有理は、空間的推論能力を著しく向上させる意味のある中間表現として機能する。
中間空間推論アノテーションを付加した100万スケールの視覚言語推論データセットであるSSR-CoTを提案する。
論文 参考訳(メタデータ) (2025-05-18T14:40:16Z) - Vision-Centric Representation-Efficient Fine-Tuning for Robust Universal Foreground Segmentation [5.326302374594885]
前景のセグメンテーションはシーン理解に不可欠であるが、視覚基盤モデル(VFM)のパラメータ効率の良い微調整(PEFT)は複雑なシナリオでしばしば失敗する。
LSR-ST(Ladder Shape-bias Representation Side-tuning)を提案する。
論文 参考訳(メタデータ) (2025-04-20T04:12:38Z) - MSSIDD: A Benchmark for Multi-Sensor Denoising [55.41612200877861]
我々は,マルチセンサSIDDデータセットという新しいベンチマークを導入する。これは,認知モデルのセンサ伝達性を評価するために設計された,最初の生ドメインデータセットである。
そこで本研究では,センサに不変な特徴を認知モデルで学習することのできるセンサ一貫性トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-18T13:32:59Z) - From Pixels to Prose: Advancing Multi-Modal Language Models for Remote Sensing [16.755590790629153]
本稿では,リモートセンシングにおけるマルチモーダル言語モデル(MLLM)の開発と応用について検討する。
我々は、自然言語を用いて衛星画像の解釈と記述を行う能力に焦点をあてる。
シーン記述、オブジェクト検出、変更検出、テキスト・ツー・イメージ検索、画像・ツー・テキスト生成、視覚的質問応答などの重要な応用について論じる。
論文 参考訳(メタデータ) (2024-11-05T12:14:22Z) - SensorBench: Benchmarking LLMs in Coding-Based Sensor Processing [6.8009140511761546]
大規模言語モデル(LLM)は、知覚データを処理する上で有望な能力を持ち、センサーシステムを開発するための副操縦士としての可能性を示している。
我々は,定量化のための総合的なベンチマークであるSensorBenchを構築した。
以上の結果から,LLMは単純なタスクでかなりの習熟度を示す一方で,構成タスクの処理において固有の課題に直面していることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-14T17:21:39Z) - SensorLLM: Aligning Large Language Models with Motion Sensors for Human Activity Recognition [9.072495000412943]
我々は、Large Language Models(LLM)が人間の活動認識(HAR)のような時系列タスクを理解できるようにすることで、ウェアラブルセンサー技術とパーソナライズされたAIアシスタントのギャップを埋める。
センサデータタスクに対するLLMのポテンシャルを解放する2段階フレームワークであるSensorLLMを紹介する。
我々は,SensorLLMが効果的なセンサ学習者,推論者,学習者へと進化し,HARタスクのための多様なデータセットをまたいで一般化できることを示す。
論文 参考訳(メタデータ) (2024-10-14T15:30:41Z) - SPARK: Multi-Vision Sensor Perception and Reasoning Benchmark for Large-scale Vision-Language Models [43.79587815909473]
本稿では,SPARKと呼ばれるマルチビジョンセンサ知覚と推論ベンチマークの構築を目的とする。
我々は6,248個の視覚言語検定サンプルを作成し,多視点感覚知覚と多視点感覚推論を物理センサ知識の熟練度に基づいて検討した。
その結果、ほとんどのモデルでは、様々な範囲で多視点感覚理論の欠陥が見られた。
論文 参考訳(メタデータ) (2024-08-22T03:59:48Z) - By My Eyes: Grounding Multimodal Large Language Models with Sensor Data via Visual Prompting [24.39281384670957]
マルチモーダル大言語モデル(MLLM)を用いたセンサデータに対する視覚的プロンプト手法を提案する。
我々は,MLLMの視覚的プロンプトを設計し,ターゲットの知覚タスク記述と並行して可視化されたセンサデータを活用する。
本研究は,4つの知覚モダリティを含む9つの感覚タスクに対するアプローチを評価し,テキストベースのプロンプトよりも平均10%高い精度を達成する。
論文 参考訳(メタデータ) (2024-07-15T01:33:54Z) - MultiPLY: A Multisensory Object-Centric Embodied Large Language Model in
3D World [55.878173953175356]
マルチ感覚を具現化した大規模言語モデルであるMultiPLYを提案する。
まず,500kデータからなる大規模マルチセンサインタラクションデータセットであるMultisensory Universeを収集する。
我々は,MultiPLYが多種多様な実施タスクを通じて,ベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2024-01-16T18:59:45Z) - Learning Online Multi-Sensor Depth Fusion [100.84519175539378]
SenFuNetは、センサ固有のノイズと外れ値統計を学習するディープフュージョンアプローチである。
実世界のCoRBSとScene3Dデータセットで様々なセンサーの組み合わせで実験を行う。
論文 参考訳(メタデータ) (2022-04-07T10:45:32Z) - Bayesian Imitation Learning for End-to-End Mobile Manipulation [80.47771322489422]
RGB + 深度カメラのような追加のセンサー入力によるポリシーの強化は、ロボットの知覚能力を改善するための簡単なアプローチである。
畳み込みニューラルネットワークを正規化するために変分情報ボトルネックを用いることで、保持領域への一般化が向上することを示す。
提案手法は, シミュレーションと現実のギャップを埋めることと, RGBと奥行き変調をうまく融合できることを実証する。
論文 参考訳(メタデータ) (2022-02-15T17:38:30Z) - Semantics-aware Adaptive Knowledge Distillation for Sensor-to-Vision
Action Recognition [131.6328804788164]
本稿では,視覚・センサ・モダリティ(動画)における行動認識を強化するためのフレームワーク,Semantics-Aware Adaptive Knowledge Distillation Networks (SAKDN)を提案する。
SAKDNは複数のウェアラブルセンサーを教師のモダリティとして使用し、RGB動画を学生のモダリティとして使用している。
論文 参考訳(メタデータ) (2020-09-01T03:38:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。