論文の概要: On-Device LLMs for Home Assistant: Dual Role in Intent Detection and Response Generation
- arxiv url: http://arxiv.org/abs/2502.12923v1
- Date: Tue, 18 Feb 2025 15:03:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:02:43.350130
- Title: On-Device LLMs for Home Assistant: Dual Role in Intent Detection and Response Generation
- Title(参考訳): ホームアシスタントのためのオンデバイスLCM:インテント検出と応答生成における2つの役割
- Authors: Rune Birkmose, Nathan Mørkeberg Reece, Esben Hofstedt Norvin, Johannes Bjerva, Mike Zhang,
- Abstract要約: 本稿では,Large Language Models (LLM) が,スマートホームアシスタントのためのスロットとインテントの検出と自然言語応答生成という2つのタスクを遂行できるかどうかを検討する。
LLMを微調整してアクションコールとテキスト応答の両方を生成します。
実験により、16ビットおよび8ビットの量子化変種はスロットとインテントの検出において高い精度を保ち、生成したテキストの強いセマンティックコヒーレンスを維持することを示した。
- 参考スコア(独自算出の注目度): 5.500769111819106
- License:
- Abstract: This paper investigates whether Large Language Models (LLMs), fine-tuned on synthetic but domain-representative data, can perform the twofold task of (i) slot and intent detection and (ii) natural language response generation for a smart home assistant, while running solely on resource-limited, CPU-only edge hardware. We fine-tune LLMs to produce both JSON action calls and text responses. Our experiments show that 16-bit and 8-bit quantized variants preserve high accuracy on slot and intent detection and maintain strong semantic coherence in generated text, while the 4-bit model, while retaining generative fluency, suffers a noticeable drop in device-service classification accuracy. Further evaluations on noisy human (non-synthetic) prompts and out-of-domain intents confirm the models' generalization ability, obtaining around 80--86\% accuracy. While the average inference time is 5--6 seconds per query -- acceptable for one-shot commands but suboptimal for multi-turn dialogue -- our results affirm that an on-device LLM can effectively unify command interpretation and flexible response generation for home automation without relying on specialized hardware.
- Abstract(参考訳): 本稿では,Large Language Models (LLMs) が合成データとドメイン表現データに基づいて微調整され,その2つの課題を遂行できるかどうかを考察する。
(i)スロットとインテント検出
i) リソース限定のCPU専用エッジハードウェアでのみ動作するスマートホームアシスタントのための自然言語応答生成。
LLMを微調整して、JSONアクション呼び出しとテキストレスポンスの両方を生成します。
実験により、16ビットおよび8ビットの量子化変種はスロットとインテントの検出において高い精度を保ち、生成したテキストの強いセマンティックコヒーレンスを保ちながら、4ビットモデルは生成頻度を維持しながらデバイスサービス分類の精度を著しく低下させることが示された。
ノイズの多い人間(非合成)のプロンプトとドメイン外インテントに関するさらなる評価は、80~86パーセントの精度でモデルの一般化能力を確認する。平均推論時間は、クエリあたり5~6秒であり、ワンショットコマンドには許容できるが、マルチターンダイアログには最適である。我々は、オンデバイスLCMが特別なハードウェアに頼ることなく、ホームオートメーションのためのコマンド解釈と柔軟な応答生成を効果的に統一できることを確認した。
関連論文リスト
- Intent Detection in the Age of LLMs [3.755082744150185]
インテント検出はタスク指向対話システム(TODS)の重要な構成要素である
従来のアプローチは、計算効率の良い教師付き文変換器エンコーダモデルに依存していた。
固有の世界知識を持つ生成的大言語モデル(LLM)の出現は、これらの課題に対処する新たな機会を提供する。
論文 参考訳(メタデータ) (2024-10-02T15:01:55Z) - Small Agent Can Also Rock! Empowering Small Language Models as Hallucination Detector [114.88975874411142]
幻覚検出は大規模言語モデル(LLM)にとって難しい課題である
本稿では,HluAgentと呼ばれる自律型LLMエージェントフレームワークを提案する。
HaluAgentでは、LLM、多機能ツールボックスを統合し、きめ細かい3段階検出フレームワークを設計する。
論文 参考訳(メタデータ) (2024-06-17T07:30:05Z) - Robust Wake-Up Word Detection by Two-stage Multi-resolution Ensembles [48.208214762257136]
オーディオストリームのリアルタイム処理のための軽量オンデバイスモデルと、サーバ側の検証モデルである。
プライバシーを保護するため、オーディオ機能は生のオーディオではなくクラウドに送られる。
論文 参考訳(メタデータ) (2023-10-17T16:22:18Z) - LLMDet: A Third Party Large Language Models Generated Text Detection
Tool [119.0952092533317]
大規模言語モデル(LLM)は、高品質な人間によるテキストに非常に近い。
既存の検出ツールは、機械が生成したテキストと人間によるテキストしか区別できない。
本稿では,モデル固有,セキュア,効率的,拡張可能な検出ツールであるLLMDetを提案する。
論文 参考訳(メタデータ) (2023-05-24T10:45:16Z) - Interpretable Unified Language Checking [42.816372695828306]
本稿では,人間と機械生成言語の両方に対して,解釈可能で統一された言語チェック(UniLC)手法を提案する。
ファクトチェック, ステレオタイプ検出, ヘイトスピーチ検出タスクの組み合わせにより, LLM は高い性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-04-07T16:47:49Z) - UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units [64.61596752343837]
本稿では,まずテキスト表現を生成し,離散音響単位を予測する2パス直接S2STアーキテクチャであるUnitYを提案する。
第1パスデコーダのサブワード予測によりモデル性能を向上させる。
提案手法は,第2パスのスペクトルを予測しても性能が向上することを示す。
論文 参考訳(メタデータ) (2022-12-15T18:58:28Z) - A Hierarchical Model for Spoken Language Recognition [29.948719321162883]
音声言語認識(SLR)とは、音声サンプルに含まれる言語を決定するための自動処理である。
本稿では,2つのPLDAモデルを訓練し,その1つは高関係言語クラスタのスコアを生成し,もう1つは各クラスタに条件付きスコアを生成するという新しい階層的アプローチを提案する。
この階層的アプローチは、高度に関連性の高い言語を検出する非階層的アプローチよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-01-04T22:10:36Z) - Speech Command Recognition in Computationally Constrained Environments
with a Quadratic Self-organized Operational Layer [92.37382674655942]
軽量ネットワークの音声コマンド認識能力を向上するネットワーク層を提案する。
この手法はテイラー展開と二次形式の概念を借用し、入力層と隠蔽層の両方における特徴のより良い表現を構築する。
このリッチな表現は、Google音声コマンド(GSC)と合成音声コマンド(SSC)データセットに関する広範な実験で示されているように、認識精度の向上をもたらす。
論文 参考訳(メタデータ) (2020-11-23T14:40:18Z) - Towards Semi-Supervised Semantics Understanding from Speech [15.672850567147854]
そこで本稿では,音声から意味論を直接学習するフレームワークを提案する。
我々のフレームワークは、事前訓練されたエンドツーエンド(E2E)ASRとBERTのような自己教師型言語モデルに基づいて構築され、限られた量のSLUコーパスに基づいて微調整される。
論文 参考訳(メタデータ) (2020-11-11T01:48:09Z) - A Simple Language Model for Task-Oriented Dialogue [61.84084939472287]
SimpleTODはタスク指向対話に対する単純なアプローチであり、すべてのサブタスクのリキャストで訓練された単一因果言語モデルを単一シーケンス予測問題として利用する。
これによりSimpleTODは、事前訓練されたオープンドメイン、GPT-2のような因果言語モデルからのトランスファー学習を完全に活用できる。
論文 参考訳(メタデータ) (2020-05-02T11:09:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。