論文の概要: SensorBench: Benchmarking LLMs in Coding-Based Sensor Processing
- arxiv url: http://arxiv.org/abs/2410.10741v1
- Date: Fri, 18 Oct 2024 23:29:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-29 19:55:21.217757
- Title: SensorBench: Benchmarking LLMs in Coding-Based Sensor Processing
- Title(参考訳): SensorBench: コーディングベースのセンサ処理におけるLLMのベンチマーク
- Authors: Pengrui Quan, Xiaomin Ouyang, Jeya Vikranth Jeyakumar, Ziqi Wang, Yang Xing, Mani Srivastava,
- Abstract要約: 大規模言語モデル(LLM)は、知覚データを処理する上で有望な能力を持ち、センサーシステムを開発するための副操縦士としての可能性を示している。
我々は,定量化のための総合的なベンチマークであるSensorBenchを構築した。
以上の結果から,LLMは単純なタスクでかなりの習熟度を示す一方で,構成タスクの処理において固有の課題に直面していることが明らかとなった。
- 参考スコア(独自算出の注目度): 6.8009140511761546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effective processing, interpretation, and management of sensor data have emerged as a critical component of cyber-physical systems. Traditionally, processing sensor data requires profound theoretical knowledge and proficiency in signal-processing tools. However, recent works show that Large Language Models (LLMs) have promising capabilities in processing sensory data, suggesting their potential as copilots for developing sensing systems. To explore this potential, we construct a comprehensive benchmark, SensorBench, to establish a quantifiable objective. The benchmark incorporates diverse real-world sensor datasets for various tasks. The results show that while LLMs exhibit considerable proficiency in simpler tasks, they face inherent challenges in processing compositional tasks with parameter selections compared to engineering experts. Additionally, we investigate four prompting strategies for sensor processing and show that self-verification can outperform all other baselines in 48% of tasks. Our study provides a comprehensive benchmark and prompting analysis for future developments, paving the way toward an LLM-based sensor processing copilot.
- Abstract(参考訳): センサデータの効果的な処理、解釈、管理は、サイバー物理システムの重要な構成要素として現れている。
伝統的に、センサデータを処理するには、信号処理ツールに深い理論的知識と熟練が必要である。
しかし,近年の研究では,Large Language Models (LLMs) が知覚データの処理に有望な能力を持っていることが示されており,センシングシステム開発における副操縦士としての可能性も示唆されている。
この可能性を探るため、定量化のための総合的なベンチマークであるSensorBenchを構築した。
このベンチマークでは、さまざまなタスクのためのさまざまな現実世界のセンサーデータセットが組み込まれている。
以上の結果から,LLMは単純なタスクにはかなりの習熟度を示す一方で,パラメータ選択による構成タスクの処理において,工学的専門家と比較して固有の課題に直面していることが明らかとなった。
さらに,センサ処理の4つのプロンプト戦略について検討し,48%のタスクにおいて,自己検証が他のすべてのベースラインより優れていることを示す。
本研究は,LLMに基づくセンサ処理コンパロへの道筋をたどって,総合的なベンチマークと今後の発展に向けた分析を促すものである。
関連論文リスト
- MSSIDD: A Benchmark for Multi-Sensor Denoising [55.41612200877861]
我々は,マルチセンサSIDDデータセットという新しいベンチマークを導入する。これは,認知モデルのセンサ伝達性を評価するために設計された,最初の生ドメインデータセットである。
そこで本研究では,センサに不変な特徴を認知モデルで学習することのできるセンサ一貫性トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-18T13:32:59Z) - SensorLLM: Aligning Large Language Models with Motion Sensors for Human Activity Recognition [9.072495000412943]
我々は、Large Language Models(LLM)が人間の活動認識(HAR)のような時系列タスクを理解できるようにすることで、ウェアラブルセンサー技術とパーソナライズされたAIアシスタントのギャップを埋める。
センサデータタスクに対するLLMのポテンシャルを解放する2段階フレームワークであるSensorLLMを紹介する。
我々は,SensorLLMが効果的なセンサ学習者,推論者,学習者へと進化し,HARタスクのための多様なデータセットをまたいで一般化できることを示す。
論文 参考訳(メタデータ) (2024-10-14T15:30:41Z) - DSBench: How Far Are Data Science Agents to Becoming Data Science Experts? [58.330879414174476]
現実的なタスクでデータサイエンスエージェントを評価するためのベンチマークであるDSBenchを紹介する。
このベンチマークには、466のデータ分析タスクと、EloquenceとKaggleのコンペからソースされた74のデータモデリングタスクが含まれている。
現状のLLM, LVLM, エージェントを評価したところ, 最高のエージェントはデータ解析タスクの34.12%しか解決できず, RPG(Relative Performance Gap)は34.74%であった。
論文 参考訳(メタデータ) (2024-09-12T02:08:00Z) - LLMSense: Harnessing LLMs for High-level Reasoning Over Spatiotemporal Sensor Traces [1.1137304094345333]
我々は,大規模言語モデル(LLM)の高レベル推論タスクに有効なプロンプトフレームワークを設計する。
また,長いセンサトレースによる性能向上のための2つの戦略を設計する。
当社のフレームワークはエッジクラウドで実装可能で,データ要約やプライバシ保護のためにクラウド上での高レベルの推論を行うために,エッジ上で小さなLLMを実行することができる。
論文 参考訳(メタデータ) (2024-03-28T22:06:04Z) - A Plug-in Tiny AI Module for Intelligent and Selective Sensor Data
Transmission [10.174575604689391]
本稿では、インテリジェントなデータ伝送機能を備えたセンシングフレームワークを実現するための新しいセンシングモジュールを提案する。
センサの近くに置かれる高効率機械学習モデルを統合する。
このモデルは,無関係な情報を破棄しながら,貴重なデータのみを送信するセンサシステムに対して,迅速なフィードバックを提供する。
論文 参考訳(メタデータ) (2024-02-03T05:41:39Z) - Design Space Exploration on Efficient and Accurate Human Pose Estimation
from Sparse IMU-Sensing [0.04594153909580514]
HPE(Human Pose Estimation)は、スポーツ、リハビリテーション、仕事の安全などにおいて、個人データを損なうことなく正確な感覚を必要とする。
ハードウェアリソースの正確性と効率的な利用との間の中心的なトレードオフは、研究ではほとんど議論されない。
我々は、センサ構成の異なる公開ボディモデルデータセットからIMUデータを生成し、このデータでディープラーニングモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-07-21T13:36:49Z) - Datasheets for Machine Learning Sensors: Towards Transparency,
Auditability, and Responsibility for Intelligent Sensing [9.686781507805113]
機械学習(ML)センサーは、エンドユーザにデータをより多くコントロールすることで、エッジでのインテリジェンスを可能にしている。
本稿では,これらのMLセンサの標準テンプレートを導入し,各セクションの設計とモチベーションについて検討・評価する。
テンプレートの応用事例として,コンピュータビジョンによる人物検出を行うMLセンサの2つの例を設計・開発した。
論文 参考訳(メタデータ) (2023-06-15T04:24:13Z) - On the Importance of Accurate Geometry Data for Dense 3D Vision Tasks [61.74608497496841]
不正確または破損したデータのトレーニングは、モデルバイアスとハマーズ一般化能力を誘導する。
本稿では,深度推定と再構成における高密度3次元視覚課題に対するセンサ誤差の影響について検討する。
論文 参考訳(メタデータ) (2023-03-26T22:32:44Z) - Bayesian Imitation Learning for End-to-End Mobile Manipulation [80.47771322489422]
RGB + 深度カメラのような追加のセンサー入力によるポリシーの強化は、ロボットの知覚能力を改善するための簡単なアプローチである。
畳み込みニューラルネットワークを正規化するために変分情報ボトルネックを用いることで、保持領域への一般化が向上することを示す。
提案手法は, シミュレーションと現実のギャップを埋めることと, RGBと奥行き変調をうまく融合できることを実証する。
論文 参考訳(メタデータ) (2022-02-15T17:38:30Z) - DeepTimeAnomalyViz: A Tool for Visualizing and Post-processing Deep
Learning Anomaly Detection Results for Industrial Time-Series [88.12892448747291]
DeTAVIZ インタフェースは Web ブラウザをベースとした可視化ツールで,特定の問題における DL ベースの異常検出の実現可能性の迅速な探索と評価を行う。
DeTAVIZを使えば、ユーザーは複数のポスト処理オプションを簡単かつ迅速に繰り返し、異なるモデルを比較することができ、選択したメトリックに対して手動で最適化できる。
論文 参考訳(メタデータ) (2021-09-21T10:38:26Z) - Benchmarking high-fidelity pedestrian tracking systems for research,
real-time monitoring and crowd control [55.41644538483948]
実生活環境における高忠実な歩行者追跡は,群集動態研究において重要なツールである。
この技術が進歩するにつれて、社会においても益々有用になってきている。
歩行者追跡技術の研究と技術に成功させるためには、正確さの検証とベンチマークが不可欠である。
我々は、プライバシーに配慮した歩行者追跡技術のためのベンチマークスイートをコミュニティのオープンスタンダードに向けて提示し、議論する。
論文 参考訳(メタデータ) (2021-08-26T11:45:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。