論文の概要: HomeBench: Evaluating LLMs in Smart Homes with Valid and Invalid Instructions Across Single and Multiple Devices
- arxiv url: http://arxiv.org/abs/2505.19628v1
- Date: Mon, 26 May 2025 07:47:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.253195
- Title: HomeBench: Evaluating LLMs in Smart Homes with Valid and Invalid Instructions Across Single and Multiple Devices
- Title(参考訳): HomeBench: ひとつのデバイスと複数のデバイスにまたがる無効なインストラクションによるスマートホームにおけるLCMの評価
- Authors: Silin Li, Yuhang Guo, Jiashu Yao, Zeming Liu, Haifeng Wang,
- Abstract要約: 大きな言語モデル(LLM)は、スマートホームアシスタントに革命をもたらす可能性がある。
HomeBenchは、単一のデバイスと複数のデバイスにまたがる有効かつ無効な命令を備えた、最初のスマートホームデータセットです。
- 参考スコア(独自算出の注目度): 16.797283740872835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have the potential to revolutionize smart home assistants by enhancing their ability to accurately understand user needs and respond appropriately, which is extremely beneficial for building a smarter home environment. While recent studies have explored integrating LLMs into smart home systems, they primarily focus on handling straightforward, valid single-device operation instructions. However, real-world scenarios are far more complex and often involve users issuing invalid instructions or controlling multiple devices simultaneously. These have two main challenges: LLMs must accurately identify and rectify errors in user instructions and execute multiple user instructions perfectly. To address these challenges and advance the development of LLM-based smart home assistants, we introduce HomeBench, the first smart home dataset with valid and invalid instructions across single and multiple devices in this paper. We have experimental results on 13 distinct LLMs; e.g., GPT-4o achieves only a 0.0% success rate in the scenario of invalid multi-device instructions, revealing that the existing state-of-the-art LLMs still cannot perform well in this situation even with the help of in-context learning, retrieval-augmented generation, and fine-tuning. Our code and dataset are publicly available at https://github.com/BITHLP/HomeBench.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ユーザのニーズを正確に理解し、適切な対応を可能にすることによって、スマートホームアシスタントに革命をもたらす可能性を秘めている。
近年,LLMをスマートホームシステムに統合する研究が進められている。
しかし、現実世界のシナリオははるかに複雑で、ユーザが無効な命令を発行したり、複数のデバイスを同時に制御したりすることが多い。
LLMは、ユーザ命令のエラーを正確に識別し、修正し、複数のユーザ命令を完璧に実行する必要があります。
これらの課題に対処し、LLMベースのスマートホームアシスタントの開発を進めるために、本論文では、単一のデバイスと複数のデバイスにまたがる有効かつ無効な命令を持つ最初のスマートホームデータセットであるHomeBenchを紹介する。
GPT-4o は無効なマルチデバイス命令のシナリオにおいて 0.0% の成功率しか達成せず、既存の最先端の LLM は、文脈内学習、検索強化生成、微調整の助けを借りても、この状況では、まだうまく機能しないことが明らかとなった。
私たちのコードとデータセットはhttps://github.com/BITHLP/HomeBench.comで公開されています。
関連論文リスト
- LLMs Get Lost In Multi-Turn Conversation [44.26588510453331]
LLM(Large Language Models)は、対話型インタフェースである。
LLMは、手元のタスクを完全に指定できるだけでなく、マルチターンの会話交換を通じて必要なものを定義、探索、洗練する上でも、ユーザを支援することができる。
論文 参考訳(メタデータ) (2025-05-09T15:21:44Z) - SpecTool: A Benchmark for Characterizing Errors in Tool-Use LLMs [77.79172008184415]
SpecToolは、ツール使用タスクのLLM出力のエラーパターンを特定するための新しいベンチマークである。
もっとも顕著なLCMでも,これらの誤りパターンが出力に現れることを示す。
SPECTOOLの分析と洞察を使って、エラー軽減戦略をガイドすることができる。
論文 参考訳(メタデータ) (2024-11-20T18:56:22Z) - Learning to Ask: When LLM Agents Meet Unclear Instruction [55.65312637965779]
大きな言語モデル(LLM)は、言語スキルだけでは達成不可能なタスクに対処するための外部ツールを活用することができる。
我々は、不完全な命令下でのLLMツールの使用性能を評価し、エラーパターンを分析し、Noisy ToolBenchと呼ばれる挑戦的なツール使用ベンチマークを構築した。
Ask-when-Needed (AwN) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-31T23:06:12Z) - MLLM-Tool: A Multimodal Large Language Model For Tool Agent Learning [40.32823306537386]
本稿では,オープンソースの大規模言語モデルとマルチモーダルエンコーダを組み合わせたMLLM-Toolを提案する。
データセットにはHuggingFaceからのマルチモーダル入力ツールが特徴です。
実験の結果,MLLM-Toolはマルチモーダル命令に適したツールを推奨できることがわかった。
論文 参考訳(メタデータ) (2024-01-19T14:44:37Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - SAGE: Smart home Agent with Grounded Execution [1.5256015470528725]
SAGE(Smart Home Agent with Grounded Execution)は、ユーザがLSM制御された個別アクションのシーケンスをトリガーするスキームを使用することで、制限を克服する。
これらのアクションは、情報検索、ユーザとのインタラクション、デバイス状態の操作に使用することができる。
我々は,SAGEが75%の成功率を達成したスマートホームタスク50のベンチマークを紹介する。
論文 参考訳(メタデータ) (2023-11-01T18:36:28Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。