論文の概要: SPARK: Multi-Vision Sensor Perception and Reasoning Benchmark for Large-scale Vision-Language Models
- arxiv url: http://arxiv.org/abs/2408.12114v2
- Date: Fri, 23 Aug 2024 08:35:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-26 10:14:02.501207
- Title: SPARK: Multi-Vision Sensor Perception and Reasoning Benchmark for Large-scale Vision-Language Models
- Title(参考訳): SPARK:大規模ビジョンランゲージモデルのためのマルチビジョンセンサ知覚と推論ベンチマーク
- Authors: Youngjoon Yu, Sangyun Chung, Byung-Kwan Lee, Yong Man Ro,
- Abstract要約: 本稿では,SPARKと呼ばれるマルチビジョンセンサ知覚と推論ベンチマークの構築を目的とする。
我々は6,248個の視覚言語検定サンプルを作成し,多視点感覚知覚と多視点感覚推論を物理センサ知識の熟練度に基づいて検討した。
その結果、ほとんどのモデルでは、様々な範囲で多視点感覚理論の欠陥が見られた。
- 参考スコア(独自算出の注目度): 43.79587815909473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale Vision-Language Models (LVLMs) have significantly advanced with text-aligned vision inputs. They have made remarkable progress in computer vision tasks by aligning text modality with vision inputs. There are also endeavors to incorporate multi-vision sensors beyond RGB, including thermal, depth, and medical X-ray images. However, we observe that current LVLMs view images taken from multi-vision sensors as if they were in the same RGB domain without considering the physical characteristics of multi-vision sensors. They fail to convey the fundamental multi-vision sensor information from the dataset and the corresponding contextual knowledge properly. Consequently, alignment between the information from the actual physical environment and the text is not achieved correctly, making it difficult to answer complex sensor-related questions that consider the physical environment. In this paper, we aim to establish a multi-vision Sensor Perception And Reasoning benchmarK called SPARK that can reduce the fundamental multi-vision sensor information gap between images and multi-vision sensors. We generated 6,248 vision-language test samples to investigate multi-vision sensory perception and multi-vision sensory reasoning on physical sensor knowledge proficiency across different formats, covering different types of sensor-related questions. We utilized these samples to assess ten leading LVLMs. The results showed that most models displayed deficiencies in multi-vision sensory reasoning to varying extents. Codes and data are available at https://github.com/top-yun/SPARK
- Abstract(参考訳): 大規模ビジョンランゲージモデル (LVLM) はテキスト・アライン・ビジョン・インプットによって大幅に進歩している。
彼らは、テキストモダリティを視覚入力と整合させることにより、コンピュータビジョンタスクにおいて顕著な進歩を遂げた。
熱、深度、医療用X線画像など、RGB以外のマルチビジョンセンサーを組み込む試みもある。
しかし、現在のLVLMは、マルチビジョンセンサの物理的特性を考慮せずに、同じRGB領域にあるかのように、マルチビジョンセンサから撮影した画像を見ることができる。
データセットとそれに対応するコンテキスト知識から、基本的なマルチビジョンセンサー情報を適切に伝達することができない。
その結果、実際の物理的環境から得られる情報とテキストとの整合性は正しくは得られず、物理的環境を考慮した複雑なセンサ関連質問への回答が困難になる。
本稿では,画像とマルチビジョンセンサ間の基本的なマルチビジョンセンサ情報ギャップを低減するために,SPARKと呼ばれるマルチビジョンセンサ知覚と推論ベンチマークを確立することを目的とする。
6,248個の視覚言語検定サンプルを作成し,多視点感覚知覚と多視点感覚推論を,様々な種類のセンサ関連質問を対象とする物理センサ知識習熟度に基づいて検討した。
我々は,これらの試料を用いて,LVLMを10個評価した。
その結果、ほとんどのモデルでは、様々な範囲で多視点感覚理論の欠陥が見られた。
コードとデータはhttps://github.com/top-yun/SPARKで公開されている。
関連論文リスト
- MSSIDD: A Benchmark for Multi-Sensor Denoising [55.41612200877861]
我々は,マルチセンサSIDDデータセットという新しいベンチマークを導入する。これは,認知モデルのセンサ伝達性を評価するために設計された,最初の生ドメインデータセットである。
そこで本研究では,センサに不変な特徴を認知モデルで学習することのできるセンサ一貫性トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-18T13:32:59Z) - SensorLLM: Aligning Large Language Models with Motion Sensors for Human Activity Recognition [9.072495000412943]
我々は、Large Language Models(LLM)が人間の活動認識(HAR)のような時系列タスクを理解できるようにすることで、ウェアラブルセンサー技術とパーソナライズされたAIアシスタントのギャップを埋める。
センサデータタスクに対するLLMのポテンシャルを解放する2段階フレームワークであるSensorLLMを紹介する。
我々は,SensorLLMが効果的なセンサ学習者,推論者,学習者へと進化し,HARタスクのための多様なデータセットをまたいで一般化できることを示す。
論文 参考訳(メタデータ) (2024-10-14T15:30:41Z) - By My Eyes: Grounding Multimodal Large Language Models with Sensor Data via Visual Prompting [24.39281384670957]
マルチモーダル大言語モデル(MLLM)を用いたセンサデータに対する視覚的プロンプト手法を提案する。
我々は,MLLMの視覚的プロンプトを設計し,ターゲットの知覚タスク記述と並行して可視化されたセンサデータを活用する。
本研究は,4つの知覚モダリティを含む9つの感覚タスクに対するアプローチを評価し,テキストベースのプロンプトよりも平均10%高い精度を達成する。
論文 参考訳(メタデータ) (2024-07-15T01:33:54Z) - On the Importance of Accurate Geometry Data for Dense 3D Vision Tasks [61.74608497496841]
不正確または破損したデータのトレーニングは、モデルバイアスとハマーズ一般化能力を誘導する。
本稿では,深度推定と再構成における高密度3次元視覚課題に対するセンサ誤差の影響について検討する。
論文 参考訳(メタデータ) (2023-03-26T22:32:44Z) - ViViD++: Vision for Visibility Dataset [14.839450468199457]
様々な輝度条件をターゲットとした多様な視覚データフォーマットを抽出したデータセットを提案する。
代替センサーの可能性にもかかわらず、代替視覚センサーを備えたデータセットは依然として少ない。
これらの測定結果と慣性センサーと接地構造を併用して,照明不良下でのロバストな視力SLAMを開発する。
論文 参考訳(メタデータ) (2022-04-13T06:01:27Z) - Learning Enriched Illuminants for Cross and Single Sensor Color
Constancy [182.4997117953705]
ネットワークをトレーニングするためのクロスセンサ自己教師型トレーニングを提案する。
センサに依存しない方法で人工発光体をランダムにサンプリングすることでネットワークを訓練する。
実験により、我々のクロスセンサモデルとシングルセンサーモデルは、他の最先端手法よりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2022-03-21T15:45:35Z) - Analyzing General-Purpose Deep-Learning Detection and Segmentation
Models with Images from a Lidar as a Camera Sensor [0.06554326244334865]
本研究は,高度ライダーセンサのイメージライクな出力処理のための汎用DL認識アルゴリズムの可能性について検討する。
3次元の点クラウドデータを処理するのではなく、私たちの知る限りでは、360textの視野を持つ低解像度の画像にフォーカスする最初の試みである。
適切な事前処理を行うことで、汎用DLモデルはこれらの画像を処理し、環境条件下での使用への扉を開くことができることを示す。
論文 参考訳(メタデータ) (2022-03-08T13:14:43Z) - Semantics-aware Adaptive Knowledge Distillation for Sensor-to-Vision
Action Recognition [131.6328804788164]
本稿では,視覚・センサ・モダリティ(動画)における行動認識を強化するためのフレームワーク,Semantics-Aware Adaptive Knowledge Distillation Networks (SAKDN)を提案する。
SAKDNは複数のウェアラブルセンサーを教師のモダリティとして使用し、RGB動画を学生のモダリティとして使用している。
論文 参考訳(メタデータ) (2020-09-01T03:38:31Z) - Learning Camera Miscalibration Detection [83.38916296044394]
本稿では,視覚センサ,特にRGBカメラの誤校正検出を学習するためのデータ駆動型アプローチに焦点を当てた。
コントリビューションには、RGBカメラの誤校正基準と、この基準に基づく新しい半合成データセット生成パイプラインが含まれる。
深層畳み込みニューラルネットワークをトレーニングすることにより、カメラ固有のパラメータの再校正が必要か否かを判断するパイプラインの有効性を実証する。
論文 参考訳(メタデータ) (2020-05-24T10:32:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。