論文の概要: SmartBench: Evaluating LLMs in Smart Homes with Anomalous Device States and Behavioral Contexts
- arxiv url: http://arxiv.org/abs/2603.06636v1
- Date: Tue, 24 Feb 2026 16:07:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-15 16:38:22.462267
- Title: SmartBench: Evaluating LLMs in Smart Homes with Anomalous Device States and Behavioral Contexts
- Title(参考訳): SmartBench: 異常なデバイス状態と振る舞いコンテキストを備えたスマートホームにおけるLLMの評価
- Authors: Qingsong Zou, Zhi Yan, Zhiyao Xu, Kuofeng Gao, Jingyu Xiao, Yong Jiang,
- Abstract要約: スマートホームアシスタントの重要な機能は、ホーム環境が異常な状態にあることを検知する能力である。
LLMは異常状態が存在するかどうかを正確に判断し、明確な説明または実行可能な提案を提供する必要がある。
次世代LCMベースのスマートホームアシスタントの異常検出機能を強化するため,SmartBenchを導入する。
- 参考スコア(独自算出の注目度): 21.21657361928802
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the strong context-awareness capabilities demonstrated by large language models (LLMs), recent research has begun exploring their integration into smart home assistants to help users manage and adjust their living environments. While LLMs have been shown to effectively understand user needs and provide appropriate responses, most existing studies primarily focus on interpreting and executing user behaviors or instructions. However, a critical function of smart home assistants is the ability to detect when the home environment is in an anomalous state. This involves two key requirements: the LLM must accurately determine whether an anomalous condition is present, and provide either a clear explanation or actionable suggestions. To enhance the anomaly detection capabilities of next-generation LLM-based smart home assistants, we introduce SmartBench, which is the first smart home dataset designed for LLMs, containing both normal and anomalous device states as well as normal and anomalous device state transition contexts. We evaluate 13 mainstream LLMs on this benchmark. The experimental results show that most state-of-the-art models cannot achieve good anomaly detection performance. For example, Claude-Sonnet-4.5 achieves only 66.1% detection accuracy on context-independent anomaly categories, and performs even worse on context-dependent anomalies, with an accuracy of only 57.8%. More experimental results suggest that next-generation LLM-based smart home assistants are still far from being able to effectively detect and handle anomalous conditions in the smart home environment. Our dataset is publicly available at https://github.com/horizonsinzqs/SmartBench.
- Abstract(参考訳): 大規模言語モデル(LLM)が示す強いコンテキスト認識能力のため,最近の研究は,ユーザが生活環境を管理し,調整するためのスマートホームアシスタントへの統合を模索している。
LLMは、ユーザニーズを効果的に理解し、適切な応答を提供することが示されているが、既存の研究のほとんどは、ユーザの振る舞いや指示の解釈と実行に重点を置いている。
しかし、スマートホームアシスタントの重要な機能は、ホーム環境が異常な状態にあることを検知する能力である。
LLMは異常状態が存在するかどうかを正確に判断し、明確な説明または実行可能な提案を提供する必要がある。
次世代のLCMベースのスマートホームアシスタントの異常検出機能を強化するため,通常のデバイス状態と異常デバイス状態の両方を含む,LCM用に設計された最初のスマートホームデータセットであるSmartBenchを導入する。
このベンチマークで13のLLMを評価した。
実験結果から,ほとんどの最先端モデルでは良好な異常検出性能が得られないことが示唆された。
例えば、Claude-Sonnet-4.5は文脈非依存の異常カテゴリで66.1%の精度しか達成せず、文脈依存の異常では57.8%の精度でさらに悪化している。
より実験的な結果から、次世代のLCMベースのスマートホームアシスタントは、スマートホーム環境における異常な状態を効果的に検出し、処理できるには程遠いことが示唆された。
私たちのデータセットはhttps://github.com/horizonsinzqs/SmartBench.comで公開されています。
関連論文リスト
- From Indoor to Open World: Revealing the Spatial Reasoning Gap in MLLMs [65.04549036809557]
我々は、ステレオカメラ、LiDAR、IMU/GPSセンサーで撮影された歩行者の視線映像から構築したベンチマークを紹介する。
このデータセットは、計量的に正確な3D情報を提供し、空間的推論質問の自動生成を可能にする。
評価の結果、構造化屋内ベンチマークで観測された性能向上は、オープンワールド環境では消滅することが明らかとなった。
論文 参考訳(メタデータ) (2025-12-22T18:58:12Z) - Adaptive and Explainable AI Agents for Anomaly Detection in Critical IoT Infrastructure using LLM-Enhanced Contextual Reasoning [0.10742675209112619]
この提案では,LLMをサポートするコンテキスト推論手法とXAIエージェントを使用して,IoT環境における異常の発見方法を改善することを提案する。
コードAIが透明性と解釈可能性を強調することはないため、人々はAIの決定を確認し、受け入れることができる。
この研究から、新しいアプローチは、精度と解釈の両方において、既存のほとんどのモデルよりもはるかに優れていることが判明した。
論文 参考訳(メタデータ) (2025-10-04T16:12:45Z) - SciML Agents: Write the Solver, Not the Solution [69.5021018644143]
敵の"ミスリーディング"問題の診断データセットと,1,000種類のODEタスクの大規模ベンチマークという,2つの新しいデータセットを紹介した。
オープンおよびクローズドソース LLM モデルについて, (i) 誘導型とガイド型, (ii) オフ・ザ・シェルフ対微調整型という2つの軸に沿って評価した。
予備的な結果は、慎重なプロンプトと微調整により、単純なODE問題を確実に解決できる特殊なLLMエージェントが得られることを示唆している。
論文 参考訳(メタデータ) (2025-09-12T02:53:57Z) - SmartHome-Bench: A Comprehensive Benchmark for Video Anomaly Detection in Smart Homes Using Multi-Modal Large Language Models [16.459243307731118]
ビデオ異常検出(VAD)は、様々な環境にまたがる異常な事象を特定することによって、安全性と安全性を高めるために不可欠である。
既存のVADベンチマークは主に汎用シナリオ用に設計されている。
スマートホームシナリオでVADを評価するために特別に設計された最初の総合ベンチマークであるSmartHome-Benchを紹介する。
論文 参考訳(メタデータ) (2025-06-15T23:20:08Z) - The SWE-Bench Illusion: When State-of-the-Art LLMs Remember Instead of Reason [1.6249398255272318]
本稿では,SWE-Bench-Verifiedの性能向上は,真の問題解決よりも記憶によってもたらされる可能性があることを示す。
現状のモデルでは,リポジトリ構造にアクセスすることなく,問題記述のみを用いて,バグのあるファイルパスを識別する精度を最大76%向上することを示す。
これらの結果は、既存の結果の有効性に関する懸念を提起し、より堅牢で汚染に強いベンチマークの必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-06-14T00:25:26Z) - HomeBench: Evaluating LLMs in Smart Homes with Valid and Invalid Instructions Across Single and Multiple Devices [16.797283740872835]
大きな言語モデル(LLM)は、スマートホームアシスタントに革命をもたらす可能性がある。
HomeBenchは、単一のデバイスと複数のデバイスにまたがる有効かつ無効な命令を備えた、最初のスマートホームデータセットです。
論文 参考訳(メタデータ) (2025-05-26T07:47:39Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。
MeCoは微調整不要で、最小限のコストがかかる。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - Anomaly Detection of Tabular Data Using LLMs [54.470648484612866]
我々は,事前訓練された大規模言語モデル (LLM) がゼロショットバッチレベルの異常検出器であることを示す。
本稿では,実異常検出におけるLCMの潜在性を明らかにするために,エンドツーエンドの微調整手法を提案する。
論文 参考訳(メタデータ) (2024-06-24T04:17:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。