論文の概要: Adaptive Edge-Cloud Inference for Speech-to-Action Systems Using ASR and Large Language Models (ASTA)
- arxiv url: http://arxiv.org/abs/2512.12769v1
- Date: Sun, 14 Dec 2025 17:07:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.425716
- Title: Adaptive Edge-Cloud Inference for Speech-to-Action Systems Using ASR and Large Language Models (ASTA)
- Title(参考訳): ASRと大規模言語モデル(ASTA)を用いた音声対話システムのための適応エッジクラウド推論
- Authors: Mohammad Jalili Torkamani, Israt Zarin,
- Abstract要約: ASTAは、エッジとクラウドの推論の間で音声コマンドを動的にルーティングする適応型音声対話ソリューションである。
NVIDIA Jetsonベースのエッジプラットフォームにソリューションを実装し、80の音声コマンドの多様なデータセットを使用して評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Voice-based interaction has emerged as a natural and intuitive modality for controlling IoT devices. However, speech-driven edge devices face a fundamental trade-off between cloud-based solutions, which offer stronger language understanding capabilities at the cost of latency, connectivity dependence, and privacy concerns, and edge-based solutions, which provide low latency and improved privacy but are limited by computational constraints. This paper presents ASTA, an adaptive speech-to-action solution that dynamically routes voice commands between edge and cloud inference to balance performance and system resource utilization. ASTA integrates on-device automatic speech recognition and lightweight offline language-model inference with cloud-based LLM processing, guided by real-time system metrics such as CPU workload, device temperature, and network latency. A metric-aware routing mechanism selects the inference path at runtime, while a rule-based command validation and repair component ensures successful end-to-end command execution. We implemented our solution on an NVIDIA Jetson-based edge platform and evaluated it using a diverse dataset of 80 spoken commands. Experimental results show that ASTA successfully routes all input commands for execution, achieving a balanced distribution between online and offline inference. The system attains an ASR accuracy of 62.5% and generates executable commands without repair for only 47.5% of inputs, highlighting the importance of the repair mechanism in improving robustness. These results suggest that adaptive edge-cloud orchestration is a viable approach for resilient and resource-aware voice-controlled IoT systems.
- Abstract(参考訳): 音声ベースのインタラクションは、IoTデバイスを制御する自然な、直感的なモダリティとして登場した。
しかし、音声駆動エッジデバイスは、レイテンシ、接続依存性、プライバシの懸念を犠牲にして、より強力な言語理解機能を提供するクラウドベースのソリューションと、低レイテンシとプライバシーの改善を提供するエッジベースのソリューションとの根本的なトレードオフに直面している。
本稿では,エッジとクラウド間の音声コマンドを動的にルーティングし,性能とシステムリソース利用のバランスをとる適応型音声対話ソリューションASTAを提案する。
ASTAは、オンデバイス自動音声認識と軽量オフライン言語モデル推論とクラウドベースのLLM処理を統合し、CPUワークロード、デバイス温度、ネットワークレイテンシなどのリアルタイムシステムメトリクスによってガイドされる。
メトリック対応ルーティング機構は実行時に推論パスを選択し、ルールベースのコマンド検証と修復コンポーネントはエンドツーエンドのコマンド実行を成功させる。
NVIDIA Jetsonベースのエッジプラットフォームにソリューションを実装し、80の音声コマンドの多様なデータセットを使用して評価した。
実験の結果、ASTAは実行のために全ての入力コマンドをルーティングし、オンラインとオフラインの推論間のバランスの取れた分布を達成することができた。
このシステムはASRの精度62.5%に達し、47.5%の入力で修理せずに実行可能なコマンドを生成する。
これらの結果は、適応的なエッジクラウドオーケストレーションが、レジリエントでリソースを意識した音声制御IoTシステムにとって、実行可能なアプローチであることを示唆している。
関連論文リスト
- Real-Time Inference for Distributed Multimodal Systems under Communication Delay Uncertainty [37.15356899831919]
接続されたサイバー物理システムは、複数のデータストリームからのリアルタイム入力に基づいて推論を行う。
本稿では,適応時間窓を用いたニューラルインスパイアされたノンブロッキング推論パラダイムを提案する。
我々のフレームワークは、精度-遅延トレードオフをきめ細かな制御で堅牢なリアルタイム推論を実現する。
論文 参考訳(メタデータ) (2025-11-20T10:48:54Z) - Stream RAG: Instant and Accurate Spoken Dialogue Systems with Streaming Tool Usage [66.67531241554546]
従来のASR-LLM-TTSパイプラインに代わる強力な対話システムとして、エンドツーエンドの音声対話システムが登場している。
本稿では,音声入力システムに直接ツールの使用を拡張するための最初のアプローチを紹介する。
提案するStreaming Retrieval-Augmented Generation (Streaming RAG) は,ユーザ音声と並行してツールクエリを予測することにより,ユーザ知覚のレイテンシを低減する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-10-02T14:18:20Z) - CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems [62.24576366776727]
本稿では,全体の推論遅延を最小限に抑えるために,遅延を考慮したスケジューリングフレームワークを提案する。
提案手法は,ベースライン戦略と比較して,コールドスタート遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-08-15T07:49:22Z) - A Novel Hat-Shaped Device-Cloud Collaborative Inference Framework for Large Language Models [12.644230479753476]
従来のクラウドベースの大規模言語モデル(LLM)は、高精度な要件を満たすが、低遅延とプライバシー強化に対する重要な要求には欠ける。
我々は,U字型推論と投機的復号化の相補的長所を生かした,新しいデバイス-クラウド協調型推論フレームワークであるHATを提案する。
HATは,TTFTを41%,TBTを41%,TBTを77%削減し,有望な性能向上を実現していることを示す。
論文 参考訳(メタデータ) (2025-03-23T10:54:58Z) - Benchmarking Dynamic SLO Compliance in Distributed Computing Continuum Systems [9.820223170841219]
大規模アーキテクチャにおけるサービスレベルオブジェクト(SLO)は、その異種性やさまざまなサービス要件のために困難である。
神経科学の新しい手法であるActive Inferenceのベンチマークを、3つの確立された強化学習アルゴリズムに対して提示する。
アクティブ推論はDCCSにおけるSLOコンプライアンスを保証するための有望なアプローチであり、低メモリ使用率、安定したCPU利用、高速収束を提供する。
論文 参考訳(メタデータ) (2025-03-05T08:56:26Z) - Age of Semantics in Cooperative Communications: To Expedite Simulation
Towards Real via Offline Reinforcement Learning [53.18060442931179]
協調リレー通信システムにおける状態更新のセマンティックス更新度を測定するための意味学年代(AoS)を提案する。
オンライン・ディープ・アクター・クリティック(DAC)学習手法を,政治時間差学習の枠組みに基づいて提案する。
そこで我々は,以前に収集したデータセットから最適制御ポリシーを推定する,新しいオフラインDAC方式を提案する。
論文 参考訳(メタデータ) (2022-09-19T11:55:28Z) - STOP: A dataset for Spoken Task Oriented Semantic Parsing [66.14615249745448]
エンドツーエンド音声言語理解(SLU)は単一モデルを用いて音声から直接意図を予測する。
Spoken Task-Oriented semantic Parsing (STOP) データセットをリリースします。
人間が録音した音声に加えて、我々はTS生成バージョンをリリースし、エンド・ツー・エンドのSLUシステムの低リソース領域適応の性能をベンチマークする。
論文 参考訳(メタデータ) (2022-06-29T00:36:34Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Paralinguistic Privacy Protection at the Edge [5.349852254138085]
EDGYは高次元音声データを変換・フィルタリングする表現学習フレームワークで,クラウドへのオフロードに先立ってエッジの感度特性を識別・保持する。
その結果, EDGYは数ミリ秒で動作し, ABXスコアは0.2%向上し, 生音声信号から言語表現を学習する際のペナルティは最小限に抑えられた。
論文 参考訳(メタデータ) (2020-11-04T14:11:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。