論文の概要: SMH-Bench: Benchmarking LLM Agents for Environment-Grounded Reasoning and Action in Smart Homes
- arxiv url: http://arxiv.org/abs/2606.01912v1
- Date: Mon, 01 Jun 2026 08:48:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.629697
- Title: SMH-Bench: Benchmarking LLM Agents for Environment-Grounded Reasoning and Action in Smart Homes
- Title(参考訳): SMH-Bench:スマートホームにおける環境調和と行動のためのLCMエージェントのベンチマーク
- Authors: Kuan Li, Shuo Zhang, Huacan Wang, Fangzhou Yu, Zecheng Sheng, Yi Gu, Weipeng Ming, Lei Xue, Chen Liu, Sen Hu, Ronghao Chen, Siyue Lin, Yuqing Hou, Xiaofeng Mou, Yi Xu,
- Abstract要約: スマートホーム環境におけるLarge Language Models (LLM) の評価のための総合ベンチマークであるSMH-Benchを紹介する。
HomeEnvは、実行可能で検証可能なスマートホームシミュレータで、SMH-Benchは7つのカテゴリと22のきめ細かいサブカテゴリにまたがる1,100の高品質なタスクを含んでいる。
- 参考スコア(独自算出の注目度): 21.9224048962238
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Smart homes are evolving toward complex state-dependent living environments, requiring Large Language Models (LLMs) to reason over user intent, preferences, and multi-device interactions. However, existing smart-home benchmarks often focus on static instruction-to-API mapping or limited simulations, failing to evaluate whether LLMs can reason, interact, and act reliably in realistic household scenarios. To address these limitations, we introduce SMH-Bench, a comprehensive benchmark for evaluating LLMs in smart-home environments. Built upon HomeEnv, an executable and verifiable smart-home simulator, SMH-Bench contains 1,100 high-quality tasks spanning 7 categories and 22 fine-grained subcategories. It further stratifies tasks across simple, medium and complex homes, ranging from small apartments to dense multi-room environments with 135 devices. Experiments show that although frontier LLMs achieve strong performance on explicit control and query tasks, they still exhibit significant weaknesses in automation task scheduling, ambiguity handling and personalized reasoning, especially as home complexity increases. We hope SMH-Bench will facilitate the development of more reliable, context-aware, and practically deployable smart-home agents.
- Abstract(参考訳): スマートホームは複雑な状態依存の生活環境へと進化しており、ユーザ意図や好み、マルチデバイスインタラクションを推論するためには、Large Language Models (LLM)が必要である。
しかし、既存のスマートホームベンチマークでは静的な命令-APIマッピングや限定的なシミュレーションに重点を置いており、LLMが現実的な家庭シナリオで推論、対話、確実に動作できるかどうかを評価できないことが多い。
これらの制約に対処するため,スマートホーム環境におけるLCM評価のための総合ベンチマークSMH-Benchを導入する。
HomeEnvは、実行可能で検証可能なスマートホームシミュレータで、SMH-Benchは7つのカテゴリと22のきめ細かいサブカテゴリにまたがる1,100の高品質なタスクを含んでいる。
さらに、小さなアパートから135台のデバイスを備えた密集したマルチルーム環境まで、単純で中堅で複雑な住宅にまたがるタスクを階層化している。
実験によると、フロンティアのLLMは明示的な制御とクエリタスクで強い性能を発揮するが、自動化タスクのスケジューリング、あいまいさ処理、パーソナライズされた推論において、特に家庭の複雑さが増大するにつれて、大きな弱点がある。
SMH-Benchがより信頼性が高く、コンテキスト対応で、実際にデプロイ可能なスマートホームエージェントの開発を促進することを願っている。
関連論文リスト
- SmartBench: Evaluating LLMs in Smart Homes with Anomalous Device States and Behavioral Contexts [21.21657361928802]
スマートホームアシスタントの重要な機能は、ホーム環境が異常な状態にあることを検知する能力である。
LLMは異常状態が存在するかどうかを正確に判断し、明確な説明または実行可能な提案を提供する必要がある。
次世代LCMベースのスマートホームアシスタントの異常検出機能を強化するため,SmartBenchを導入する。
論文 参考訳(メタデータ) (2026-02-24T16:07:44Z) - SimuHome: A Temporal- and Environment-Aware Benchmark for Smart Home LLM Agents [10.925787133867951]
SimuHomeは、スマートデバイスをシミュレートし、APIコールをサポートし、環境変数の変更を反映する時間短縮ホーム環境である。
SimuHomeは高忠実な環境を提供し、SimuHomeで検証されたエージェントは、最小限の適応で実際のMatter準拠のデバイスにデプロイできる。
統合されたReActフレームワーク下での11エージェントの評価では、モデルが単純なタスクでうまく機能する一方で、潜在意図推論、状態検証、特に時間的スケジューリングに苦労していることが判明した。
論文 参考訳(メタデータ) (2025-09-29T04:54:20Z) - HomeBench: Evaluating LLMs in Smart Homes with Valid and Invalid Instructions Across Single and Multiple Devices [16.797283740872835]
大きな言語モデル(LLM)は、スマートホームアシスタントに革命をもたらす可能性がある。
HomeBenchは、単一のデバイスと複数のデバイスにまたがる有効かつ無効な命令を備えた、最初のスマートホームデータセットです。
論文 参考訳(メタデータ) (2025-05-26T07:47:39Z) - FamilyTool: A Multi-hop Personalized Tool Use Benchmark [93.80355496575281]
FamilyToolは、パーソナライズされたマルチホップツールの使用シナリオをシミュレートする、家族ベースのナレッジグラフ(KG)に基盤を置くベンチマークである。
実験により、最先端の大規模言語モデル(LLM)における顕著な性能ギャップが明らかになった
FamilyToolは、複雑な動的環境において、LLMエージェントの推論、適応性、スケーラビリティを評価し、前進するための重要なリソースとなる。
論文 参考訳(メタデータ) (2025-04-09T10:42:36Z) - DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent) [73.10899129264375]
本稿では,LLMによる動的シーン理解のための包括的かつ概念的にエレガントなシステムであるドラモンGPTについて検討する。
質問/タスクのあるビデオが与えられた場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。
我々は,DoraemonGPTの有効性を,3つのベンチマークといくつかのアプリ内シナリオで広範囲に評価した。
論文 参考訳(メタデータ) (2024-01-16T14:33:09Z) - AgentBench: Evaluating LLMs as Agents [99.12825098528212]
エージェントとしてのLarge Language Model (LLM)は近年広く認知されている。
我々は,LLM-as-Agentの推論と意思決定能力を評価するために,8つの異なる環境からなるベンチマークであるAgentBenchを提案する。
論文 参考訳(メタデータ) (2023-08-07T16:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。