Fugu-MT 論文翻訳(概要): HomeBench: Evaluating LLMs in Smart Homes with Valid and Invalid Instructions Across Single and Multiple Devices

論文の概要: HomeBench: Evaluating LLMs in Smart Homes with Valid and Invalid Instructions Across Single and Multiple Devices

arxiv url: http://arxiv.org/abs/2505.19628v1
Date: Mon, 26 May 2025 07:47:39 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-27 16:58:43.253195
Title: HomeBench: Evaluating LLMs in Smart Homes with Valid and Invalid Instructions Across Single and Multiple Devices
Title（参考訳）: HomeBench: ひとつのデバイスと複数のデバイスにまたがる無効なインストラクションによるスマートホームにおけるLCMの評価
Authors: Silin Li, Yuhang Guo, Jiashu Yao, Zeming Liu, Haifeng Wang,
Abstract要約: 大きな言語モデル(LLM)は、スマートホームアシスタントに革命をもたらす可能性がある。 HomeBenchは、単一のデバイスと複数のデバイスにまたがる有効かつ無効な命令を備えた、最初のスマートホームデータセットです。
参考スコア（独自算出の注目度）: 16.797283740872835
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have the potential to revolutionize smart home assistants by enhancing their ability to accurately understand user needs and respond appropriately, which is extremely beneficial for building a smarter home environment. While recent studies have explored integrating LLMs into smart home systems, they primarily focus on handling straightforward, valid single-device operation instructions. However, real-world scenarios are far more complex and often involve users issuing invalid instructions or controlling multiple devices simultaneously. These have two main challenges: LLMs must accurately identify and rectify errors in user instructions and execute multiple user instructions perfectly. To address these challenges and advance the development of LLM-based smart home assistants, we introduce HomeBench, the first smart home dataset with valid and invalid instructions across single and multiple devices in this paper. We have experimental results on 13 distinct LLMs; e.g., GPT-4o achieves only a 0.0% success rate in the scenario of invalid multi-device instructions, revealing that the existing state-of-the-art LLMs still cannot perform well in this situation even with the help of in-context learning, retrieval-augmented generation, and fine-tuning. Our code and dataset are publicly available at https://github.com/BITHLP/HomeBench.
Abstract（参考訳）: 大規模言語モデル(LLM)は、ユーザのニーズを正確に理解し、適切な対応を可能にすることによって、スマートホームアシスタントに革命をもたらす可能性を秘めている。近年,LLMをスマートホームシステムに統合する研究が進められている。しかし、現実世界のシナリオははるかに複雑で、ユーザが無効な命令を発行したり、複数のデバイスを同時に制御したりすることが多い。 LLMは、ユーザ命令のエラーを正確に識別し、修正し、複数のユーザ命令を完璧に実行する必要があります。これらの課題に対処し、LLMベースのスマートホームアシスタントの開発を進めるために、本論文では、単一のデバイスと複数のデバイスにまたがる有効かつ無効な命令を持つ最初のスマートホームデータセットであるHomeBenchを紹介する。 GPT-4o は無効なマルチデバイス命令のシナリオにおいて 0.0% の成功率しか達成せず、既存の最先端の LLM は、文脈内学習、検索強化生成、微調整の助けを借りても、この状況では、まだうまく機能しないことが明らかとなった。私たちのコードとデータセットはhttps://github.com/BITHLP/HomeBench.comで公開されています。

関連論文リスト

LLM4VV: Evaluating Cutting-Edge LLMs for Generation and Evaluation of Directive-Based Parallel Programming Model Compiler Tests [7.6818904666624395]
本稿では,コンパイラテストの生成にLLMを用いたデュアルLLMシステムと実験について述べる。 LLMは、品質の高いコンパイラテストを生成し、それらを自動的に検証する有望な可能性を持っていることは明らかである。
論文参考訳（メタデータ） (2025-07-29T02:34:28Z)
LLMs Get Lost In Multi-Turn Conversation [44.26588510453331]
LLM(Large Language Models)は、対話型インタフェースである。 LLMは、手元のタスクを完全に指定できるだけでなく、マルチターンの会話交換を通じて必要なものを定義、探索、洗練する上でも、ユーザを支援することができる。
論文参考訳（メタデータ） (2025-05-09T15:21:44Z)
SpecTool: A Benchmark for Characterizing Errors in Tool-Use LLMs [77.79172008184415]
SpecToolは、ツール使用タスクのLLM出力のエラーパターンを特定するための新しいベンチマークである。もっとも顕著なLCMでも,これらの誤りパターンが出力に現れることを示す。 SPECTOOLの分析と洞察を使って、エラー軽減戦略をガイドすることができる。
論文参考訳（メタデータ） (2024-11-20T18:56:22Z)
Learning to Ask: When LLM Agents Meet Unclear Instruction [55.65312637965779]
大きな言語モデル(LLM)は、言語スキルだけでは達成不可能なタスクに対処するための外部ツールを活用することができる。我々は、不完全な命令下でのLLMツールの使用性能を評価し、エラーパターンを分析し、Noisy ToolBenchと呼ばれる挑戦的なツール使用ベンチマークを構築した。 Ask-when-Needed (AwN) という新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-08-31T23:06:12Z)
LLMs in the Imaginarium: Tool Learning through Simulated Trial and Error [54.954211216847135]
既存の大規模言語モデル(LLM)は30%から60%の範囲でしか正当性に至らない。試行錯誤(STE)を模擬したツール拡張LDMの生物学的なインスピレーション法を提案する。 STEは、試行錯誤、想像力、記憶という、生物学的システムにおけるツール使用行動の成功のための3つの重要なメカニズムを編成する。
論文参考訳（メタデータ） (2024-03-07T18:50:51Z)
Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文参考訳（メタデータ） (2024-02-19T11:11:08Z)
Why and When LLM-Based Assistants Can Go Wrong: Investigating the Effectiveness of Prompt-Based Interactions for Software Help-Seeking [5.755004576310333]
大規模言語モデル(LLM)アシスタントは、ユーザーがソフトウェアをナビゲートするための検索方法の潜在的な代替手段として登場した。 LLMアシスタントは、ドメイン固有のテキスト、ソフトウェアマニュアル、コードリポジトリからの膨大なトレーニングデータを使用して、人間のようなインタラクションを模倣する。
論文参考訳（メタデータ） (2024-02-12T19:49:58Z)
MLLM-Tool: A Multimodal Large Language Model For Tool Agent Learning [40.32823306537386]
本稿では,オープンソースの大規模言語モデルとマルチモーダルエンコーダを組み合わせたMLLM-Toolを提案する。データセットにはHuggingFaceからのマルチモーダル入力ツールが特徴です。実験の結果,MLLM-Toolはマルチモーダル命令に適したツールを推奨できることがわかった。
論文参考訳（メタデータ） (2024-01-19T14:44:37Z)
Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文参考訳（メタデータ） (2024-01-14T16:17:07Z)
SAGE: Smart home Agent with Grounded Execution [1.5256015470528725]
SAGE(Smart Home Agent with Grounded Execution)は、ユーザがLSM制御された個別アクションのシーケンスをトリガーするスキームを使用することで、制限を克服する。これらのアクションは、情報検索、ユーザとのインタラクション、デバイス状態の操作に使用することができる。我々は,SAGEが75%の成功率を達成したスマートホームタスク50のベンチマークを紹介する。
論文参考訳（メタデータ） (2023-11-01T18:36:28Z)
Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文参考訳（メタデータ） (2023-02-24T18:48:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。