論文の概要: SimuHome: A Temporal- and Environment-Aware Benchmark for Smart Home LLM Agents
- arxiv url: http://arxiv.org/abs/2509.24282v1
- Date: Mon, 29 Sep 2025 04:54:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.751203
- Title: SimuHome: A Temporal- and Environment-Aware Benchmark for Smart Home LLM Agents
- Title(参考訳): SimuHome: スマートホームLLMエージェントのための時間と環境を意識したベンチマーク
- Authors: Gyuhyeon Seo, Jungwoo Yang, Junseong Pyo, Nalim Kim, Jonggeun Lee, Yohan Jo,
- Abstract要約: SimuHomeは、スマートデバイスをシミュレートし、APIコールをサポートし、環境変数の変更を反映する時間短縮ホーム環境である。
SimuHomeは高忠実な環境を提供し、SimuHomeで検証されたエージェントは、最小限の適応で実際のMatter準拠のデバイスにデプロイできる。
統合されたReActフレームワーク下での11エージェントの評価では、モデルが単純なタスクでうまく機能する一方で、潜在意図推論、状態検証、特に時間的スケジューリングに苦労していることが判明した。
- 参考スコア(独自算出の注目度): 10.925787133867951
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Model (LLM) agents excel at multi-step, tool-augmented tasks. However, smart homes introduce distinct challenges, requiring agents to handle latent user intents, temporal dependencies, device constraints, scheduling, and more. The main bottlenecks for developing smart home agents with such capabilities include the lack of a realistic simulation environment where agents can interact with devices and observe the results, as well as a challenging benchmark to evaluate them. To address this, we introduce $\textbf{SimuHome}$, a time-accelerated home environment that simulates smart devices, supports API calls, and reflects changes in environmental variables. By building the simulator on the Matter protocol (the global industry standard for smart home communication), SimuHome provides a high-fidelity environment, and agents validated in SimuHome can be deployed on real Matter-compliant devices with minimal adaptation. We provide a challenging benchmark of 600 episodes across twelve user query types that require the aforementioned capabilities. Our evaluation of 11 agents under a unified ReAct framework reveals that while models perform well on simple tasks, they struggle with latent intent inference, state verification, and especially temporal scheduling. Even the top-performing model, GPT-4.1, reaches only 54% success rate. These findings highlight a critical need for methods that can reliably verify the current state via tools before acting and coordinate time-dependent actions.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、多段階のツール拡張タスクで優れている。
しかし、スマートホームは、潜伏するユーザの意図、時間的依存関係、デバイスの制約、スケジューリングなど、さまざまな課題を導入している。
このような機能を備えたスマートホームエージェントを開発する上でのボトルネックは、エージェントがデバイスと対話して結果を観察できる現実的なシミュレーション環境の欠如と、それらを評価するための困難なベンチマークである。
これを解決するために,スマートデバイスをシミュレートし,APIコールをサポートし,環境変数の変化を反映した,時間短縮ホーム環境である$\textbf{SimuHome}$を紹介した。
Matterプロトコル(スマートホーム通信のグローバルな業界標準)上にシミュレータを構築することで、SimuHomeは高忠実な環境を提供し、SimuHomeで検証されたエージェントは、最小限の適応で実際のMatter準拠のデバイスにデプロイできる。
上記の機能を必要とする12のユーザクエリタイプに対して、600エピソードの挑戦的なベンチマークを提供します。
統合されたReActフレームワーク下での11エージェントの評価では、モデルが単純なタスクでうまく機能する一方で、潜在意図推論、状態検証、特に時間的スケジューリングに苦労していることが判明した。
トップパフォーマンスモデルであるGPT-4.1でさえ、わずか54%の成功率である。
これらの知見は、時間依存アクションの動作とコーディネート前に、ツールを介して現在の状態を確実に検証できる手法に対する重要な必要性を浮き彫りにしている。
関連論文リスト
- ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks [54.52092001110694]
ThinkGeoは、構造化ツールの使用とマルチステップ計画を通じて、リモートセンシングタスクにおけるツール拡張エージェントを評価するために設計されたベンチマークである。
ThinkGeoは、ツール-インタラクションのパラダイムにインスパイアされたもので、さまざまな現実世界のアプリケーションにまたがる人間のクエリを含んでいる。
分析の結果、ツールの精度とモデル間の計画整合性に顕著な相違が明らかになった。
論文 参考訳(メタデータ) (2025-05-29T17:59:38Z) - SPA-Bench: A Comprehensive Benchmark for SmartPhone Agent Evaluation [89.24729958546168]
スマートフォンエージェントは、ユーザーがデバイスを効率的に制御するのを助けるためにますます重要になっている。
We present SPA-Bench, a comprehensive SmartPhone Agent Benchmark designed to evaluate (M)LLM-based agent。
論文 参考訳(メタデータ) (2024-10-19T17:28:48Z) - Benchmarking Mobile Device Control Agents across Diverse Configurations [19.01954948183538]
B-MoCAは、モバイルデバイス制御エージェントの評価と開発のためのベンチマークである。
我々は,大規模言語モデル (LLM) やマルチモーダル LLM を用いたエージェントを含む多種多様なエージェントをベンチマークする。
これらのエージェントは、簡単なタスクの実行の熟練度を示す一方で、複雑なタスクにおけるパフォーマンスの低さは、将来の研究が有効性を改善するための重要な機会を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-04-25T14:56:32Z) - AgentStudio: A Toolkit for Building General Virtual Agents [57.02375267926862]
一般的な仮想エージェントは、マルチモーダルな観察、複雑なアクション空間のマスター、動的でオープンなドメイン環境における自己改善を扱う必要がある。
AgentStudioは、非常に汎用的な観察とアクション空間を備えた軽量でインタラクティブな環境を提供する。
オンラインベンチマークタスクの作成、GUI要素の注釈付け、ビデオ内のアクションのラベル付けといったツールを統合する。
環境とツールに基づいて、GUIインタラクションと関数呼び出しの両方を効率的な自動評価でベンチマークするオンラインタスクスイートをキュレートします。
論文 参考訳(メタデータ) (2024-03-26T17:54:15Z) - BEHAVIOR in Habitat 2.0: Simulator-Independent Logical Task Description
for Benchmarking Embodied AI Agents [31.499374840833124]
高速なシミュレーション速度の恩恵を受けるため、Habitat 2.0にBEHAVIORアクティビティのサブセットを組み込む。
ベンチマークがAIの分野で果たした触媒効果に触発されて、コミュニティはエンボディされたAIのための新しいベンチマークを探している。
論文 参考訳(メタデータ) (2022-06-13T21:37:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。