論文の概要: PersonalHomeBench: Evaluating Agents in Personalized Smart Homes
- arxiv url: http://arxiv.org/abs/2604.16813v2
- Date: Tue, 21 Apr 2026 22:06:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:10.340287
- Title: PersonalHomeBench: Evaluating Agents in Personalized Smart Homes
- Title(参考訳): PersonalHomeBench:パーソナライズされたスマートホームにおけるエージェントの評価
- Authors: Nikhil Verma, InJung Yang, Sungil Kim, KoKeun Kim, YoungJoon Kim, Manasa Bharadwaj, Yolanda Liu, Kevin Ferreira,
- Abstract要約: スマートホーム環境におけるエージェントアシスタントとしての基礎モデルを評価するためのベンチマークであるPersonalHomeBenchを紹介する。
このベンチマークは、リッチホームステートを段階的に構築する反復的なプロセスを通じて構築され、パーソナライズされたコンテキストに依存したタスクを生成するために使用される。
PersonalHomeBenchは、一方向および多モードの観察の下で、反応性およびプロアクティブな作用能力の両方を評価する。
- 参考スコア(独自算出の注目度): 6.971485423736124
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Agentic AI systems are rapidly advancing toward real-world applications, yet their readiness in complex and personalized environments remains insufficiently characterized. To address this gap, we introduce PersonalHomeBench, a benchmark for evaluating foundation models as agentic assistants in personalized smart home environments. The benchmark is constructed through an iterative process that progressively builds rich household states, which are then used to generate personalized, context-dependent tasks. To support realistic agent-environment interaction, we provide PersonalHomeTools, a comprehensive toolbox enabling household information retrieval, appliance control, and situational understanding. PersonalHomeBench evaluates both reactive and proactive agentic abilities under unimodal and multimodal observations. Thorough experimentation reveals a systematic performance reduction as task complexity increases, with pronounced failures in counterfactual reasoning and under partial observability, where effective tool-based information gathering is required. These results position PersonalHomeBench as a rigorous evaluation platform for analyzing the robustness and limitations of personalized agentic reasoning and planning.
- Abstract(参考訳): エージェントAIシステムは、現実世界のアプリケーションに向けて急速に進歩しているが、複雑でパーソナライズされた環境におけるその準備性は、まだ不十分である。
このギャップに対処するために、パーソナライズされたスマートホーム環境におけるエージェントアシスタントとしての基礎モデルを評価するためのベンチマークであるPersonalHomeBenchを紹介する。
このベンチマークは、リッチホームステートを段階的に構築する反復的なプロセスを通じて構築され、パーソナライズされたコンテキストに依存したタスクを生成するために使用される。
現実的なエージェントと環境のインタラクションを支援するため,PersonalHomeToolsは家庭用情報検索,アプライアンスコントロール,状況把握が可能な総合的なツールボックスである。
PersonalHomeBenchは、一方向および多モードの観察の下で、反応性およびプロアクティブな作用能力の両方を評価する。
粗い実験により、タスクの複雑さが増大するにつれて、効果的なツールベースの情報収集が必要な部分的可観測性の下で、対実的推論の失敗が顕著になるため、体系的なパフォーマンス低下が明らかになる。
これらの結果は、パーソナライズされたエージェント推論と計画の堅牢性と限界を分析するための厳格な評価プラットフォームとしてPersonalHomeBenchを位置づけている。
関連論文リスト
- Proactive Agent Research Environment: Simulating Active Users to Evaluate Proactive Assistants [85.1155076383488]
Pareは、デジタル環境におけるプロアクティブエージェントの構築と評価のためのフレームワークである。
Pare-Benchは、コミュニケーション、生産性、スケジューリング、ライフスタイルアプリにまたがる143のタスクのベンチマークである。
論文 参考訳(メタデータ) (2026-04-01T12:53:01Z) - Agentic Reasoning for Large Language Models [122.81018455095999]
推論は推論、問題解決、意思決定の基礎となる基本的な認知プロセスである。
大規模言語モデル(LLM)は、クローズドワールド設定では強力な推論能力を示すが、オープンエンドおよび動的環境では苦労する。
エージェント推論は、連続的な相互作用を計画し、行動し、学習する自律的なエージェントとしてLLMを解釈することでパラダイムシフトを示す。
論文 参考訳(メタデータ) (2026-01-18T18:58:23Z) - TongSIM: A General Platform for Simulating Intelligent Machines [59.27575233453533]
エボディード・インテリジェンス(Embodied Intelligence)は、現実的なシミュレートされた環境における訓練エージェントに焦点を当てる。
TongSIMは、エンボディエージェントのトレーニングと評価のための高忠実で汎用的なプラットフォームである。
論文 参考訳(メタデータ) (2025-12-23T10:00:43Z) - Agentic Persona Control and Task State Tracking for Realistic User Simulation in Interactive Scenarios [0.0]
対話型シナリオにおける現実的で説明可能なユーザシミュレーションのための,新しいマルチエージェントフレームワークを提案する。
我々は、目標志向の会話において、人間の認知過程を反映するペルソナ制御とタスク状態追跡を採用する。
論文 参考訳(メタデータ) (2025-11-30T20:25:56Z) - SimuHome: A Temporal- and Environment-Aware Benchmark for Smart Home LLM Agents [10.925787133867951]
SimuHomeは、スマートデバイスをシミュレートし、APIコールをサポートし、環境変数の変更を反映する時間短縮ホーム環境である。
SimuHomeは高忠実な環境を提供し、SimuHomeで検証されたエージェントは、最小限の適応で実際のMatter準拠のデバイスにデプロイできる。
統合されたReActフレームワーク下での11エージェントの評価では、モデルが単純なタスクでうまく機能する一方で、潜在意図推論、状態検証、特に時間的スケジューリングに苦労していることが判明した。
論文 参考訳(メタデータ) (2025-09-29T04:54:20Z) - A Survey of Self-Evolving Agents: On Path to Artificial Super Intelligence [87.08051686357206]
大きな言語モデル(LLM)は強力な能力を示しているが、基本的に静的である。
LLMはますますオープンでインタラクティブな環境にデプロイされているため、この静的な性質は重要なボトルネックとなっている。
この調査は、自己進化エージェントの体系的で包括的なレビューを初めて提供する。
論文 参考訳(メタデータ) (2025-07-28T17:59:05Z) - TravelAgent: Generative Agents in the Built Environment [5.27010745275885]
TravelAgentは、さまざまな屋内および屋外環境における歩行者ナビゲーションと活動パターンをモデル化する、新しいシミュレーションプラットフォームである。
1898年のエージェント・ステップを多種多様な空間配置とエージェント・アーチタイプからなる100個のシミュレーションから分析し,全体のタスク完了率を76%とした。
本研究では,都市デザイン,空間認知研究,エージェントベースモデリングのツールとしてのTravelAgentの可能性を明らかにする。
論文 参考訳(メタデータ) (2024-12-25T21:27:51Z) - AgentStudio: A Toolkit for Building General Virtual Agents [57.02375267926862]
一般的な仮想エージェントは、マルチモーダルな観察、複雑なアクション空間のマスター、動的でオープンなドメイン環境における自己改善を扱う必要がある。
AgentStudioは、非常に汎用的な観察とアクション空間を備えた軽量でインタラクティブな環境を提供する。
オンラインベンチマークタスクの作成、GUI要素の注釈付け、ビデオ内のアクションのラベル付けといったツールを統合する。
環境とツールに基づいて、GUIインタラクションと関数呼び出しの両方を効率的な自動評価でベンチマークするオンラインタスクスイートをキュレートします。
論文 参考訳(メタデータ) (2024-03-26T17:54:15Z) - Reflexion: Language Agents with Verbal Reinforcement Learning [44.85337947858337]
リフレクション(Reflexion)は、ウェイトを更新するのではなく、言語フィードバックによって言語エージェントを強化する新しいフレームワークである。
様々なタイプ(スカラー値または自由形式言語)とフィードバック信号のソース(外部または内部シミュレート)を組み込むのに十分な柔軟性がある。
例えば、ReflexionはHumanEvalのコーディングベンチマークで91%のパス@1精度を達成した。
論文 参考訳(メタデータ) (2023-03-20T18:08:50Z) - Watch-And-Help: A Challenge for Social Perception and Human-AI
Collaboration [116.28433607265573]
我々は、AIエージェントでソーシャルインテリジェンスをテストするための課題であるWatch-And-Help(WAH)を紹介する。
WAHでは、AIエージェントは、人間のようなエージェントが複雑な家庭用タスクを効率的に実行するのを助ける必要がある。
マルチエージェントの家庭環境であるVirtualHome-Socialを構築し、計画と学習ベースのベースラインを含むベンチマークを提供する。
論文 参考訳(メタデータ) (2020-10-19T21:48:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。