論文の概要: Democratizing Agentic AI with Fast Test-Time Scaling on the Edge
- arxiv url: http://arxiv.org/abs/2509.00195v1
- Date: Fri, 29 Aug 2025 19:12:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.122028
- Title: Democratizing Agentic AI with Fast Test-Time Scaling on the Edge
- Title(参考訳): エッジ上での高速なテストタイムスケーリングによるエージェントAIの民主化
- Authors: Hao Mark Chen, Zhiwen Mo, Guanxi Lu, Shuang Liang, Lingxiao Ma, Wayne Luk, Hongxiang Fan,
- Abstract要約: FlashTTS は TTS をメモリ制約付き LLM 推論に活用するサービスシステムである。
vLLM用のプラグイン・アンド・プレイライブラリとして構築されたFlashTTSは、単一のコンシューマGPU上でエッジLLMを使用して、大規模なクラウドモデルの正確性とレイテンシを一致させることができる。
評価の結果,FlashTTSは平均2.2倍の高出力を実現し,vLLMベースラインに比べて38%~68%のレイテンシを実現することがわかった。
- 参考スコア(独自算出の注目度): 14.889726225226175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deploying agentic AI on edge devices is crucial for privacy and responsiveness, but memory constraints typically relegate these systems to smaller Large Language Models (LLMs) with inferior reasoning capabilities. Test-Time Scaling (TTS) can bridge this reasoning gap by dedicating more compute during inference, but existing methods incur prohibitive overhead on edge hardware. To overcome this, we introduce FlashTTS, a serving system that makes TTS practical for memory-constrained LLM reasoning. FlashTTS introduces three synergistic optimizations: (i) Speculative Beam Extension to mitigate system stragglers from irregular reasoning paths; (ii) Asymmetric Multi-Model Memory Allocation to dynamically balance memory between generation and verification; and (iii) Dynamic Prefix-Aware Scheduling to maximize KV-cache reuse. Built as a plug-and-play library for vLLM, FlashTTS enables edge LLMs on a single consumer GPU (24 GB) to match the accuracy and latency of large cloud models. Our evaluation demonstrates that FlashTTS achieves an average 2.2x higher goodput and reduces latency by 38%-68% compared to a vLLM baseline, paving the way for democratized, high-performance agentic AI on edge devices.
- Abstract(参考訳): エッジデバイスにエージェントAIをデプロイすることは、プライバシと応答性にとって重要であるが、メモリ制約は一般的に、これらのシステムをより小さな大言語モデル(LLM)に還元し、推論能力は劣る。
テスト時間スケーリング(TTS)は、推論中により多くの計算を集中することで、この推論ギャップを埋めることができます。
これを解決するために,メモリ制約付きLLM推論において,TTSを実用化するサービスシステムであるFlashTTSを紹介する。
FlashTTSは3つの相乗最適化を導入した。
一 不規則な推論経路からシステムストラグラーを緩和するための投機的ビーム延長
二 生成と検証の動的バランスをとるための非対称多モデルメモリ割り当て
三 動的プリフィックス対応スケジューリングにより、KVキャッシュの再利用を最大化する。
vLLM用のプラグイン・アンド・プレイライブラリとして構築されたFlashTTSは、単一のコンシューマGPU(24GB)上でエッジLLMを可能にし、大規模なクラウドモデルの正確性とレイテンシを一致させる。
我々の評価は、FlashTTSが平均2.2倍の高出力を実現し、vLLMベースラインと比較してレイテンシを38%-68%削減し、エッジデバイス上での民主化された高性能エージェントAIの道を開くことを示した。
関連論文リスト
- Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction [58.044803442346115]
Diffusion Large Language Models (dLLMs) は推論と並列デコードにおいてブレークスルーを実現するが、推論中に計算の複雑さやメモリオーバーヘッドに悩まされる。
Sparse-dLLMは、動的キャッシュ消去とスパースアテンションを統合した最初のトレーニングフリーフレームワークであり、遅延双方向スパースキャッシングを経由するスパースアテンションである。
論文 参考訳(メタデータ) (2025-08-04T16:14:03Z) - FlashSVD: Memory-Efficient Inference with Streaming for Low-Rank Models [15.244129138320782]
FlashSVDは、SVD圧縮された大規模言語モデルのためのエンドツーエンドのランクアウェアストリーミング推論フレームワークである。
ピークアクティベーションメモリを最大70.2%削減し、中間のトランジェントメモリを75%削減する。
アップストリームエンコード圧縮法では精度の低下は生じず、低ランクLLMのメモリ制約による展開への実践的な経路を提供する。
論文 参考訳(メタデータ) (2025-08-02T22:06:46Z) - Efficient Multi-Instance Generation with Janus-Pro-Dirven Prompt Parsing [53.295515505026096]
Janus-Pro-driven Prompt Parsingは、テキスト理解とレイアウト生成をブリッジするプロンプト解析モジュールである。
MIGLoRAはパラメータ効率の良いプラグインで、低ランク適応を UNet (SD1.5) と DiT (SD3) のバックボーンに統合する。
提案手法はパラメータ効率を維持しつつCOCOおよびLVISベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2025-03-27T00:59:14Z) - Online Dense Point Tracking with Streaming Memory [54.22820729477756]
デンスポイントトラッキングは、ビデオのかなりの部分を通して、初期フレーム内のすべてのポイントの連続的な追跡を必要とする、困難なタスクである。
最近の点追跡アルゴリズムは、通常、最初のフレームから現在のフレームへの間接的な情報伝達のためにスライドウィンドウに依存する。
我々は、高密度のtextbfPOint textbfTracking とオンラインビデオ処理のための textbfStreaming メモリを備えた軽量で高速なモデルを提案する。
論文 参考訳(メタデータ) (2025-03-09T06:16:49Z) - LiVOS: Light Video Object Segmentation with Gated Linear Matching [116.58237547253935]
LiVOSはリニアアテンションによるリニアマッチングを利用する軽量メモリネットワークである。
長くて高解像度のビデオでは、STMベースのメソッドと53%のGPUメモリで一致し、32Gの消費者向けGPU上で4096pの推論をサポートする。
論文 参考訳(メタデータ) (2024-11-05T05:36:17Z) - TPI-LLM: Serving 70B-scale LLMs Efficiently on Low-resource Edge Devices [36.714057078457195]
本稿では,70Bスケールモデルに対する計算およびメモリ効率の高いテンソル並列推論システムであるTPI-LLMを提案する。
TPI-LLMは、ユーザのデバイスに機密データをローカルに保持し、スライディングウィンドウメモリスケジューラを導入する。
TPI-LLMは、Accelerateと比較して80%以上、タイム・ツー・ファースト・トークンのレイテンシが低いことを示した。
論文 参考訳(メタデータ) (2024-10-01T09:18:56Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - Efficient NLP Inference at the Edge via Elastic Pipelining [0.42970700836450487]
WRXは2つの新しい手法によってレイテンシ/メモリの緊張を緩和する。
We build WRX and evaluation that on a range of NLP tasks, under a practical range of target latencies, on both CPU and GPU。
論文 参考訳(メタデータ) (2022-07-11T17:15:57Z) - LiteTransformerSearch: Training-free On-device Search for Efficient
Autoregressive Language Models [34.673688610935876]
モデルトレーニングを必要とせずに、レイテンシとパープレクシリティが最前線に現れることを示す。
我々は,多種多様なデバイス上での軽量トランスフォーマーサーチ (LTS) の評価を行った。
最大2倍のレイテンシでTransformer-XLのパープレキシティを実現することができることを示す。
論文 参考訳(メタデータ) (2022-03-04T02:10:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。