論文の概要: Quantization-Aware Collaborative Inference for Large Embodied AI Models
- arxiv url: http://arxiv.org/abs/2602.13052v1
- Date: Fri, 13 Feb 2026 16:08:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:54.024635
- Title: Quantization-Aware Collaborative Inference for Large Embodied AI Models
- Title(参考訳): 大規模身体型AIモデルのための量子化対応協調推論
- Authors: Zhonghao Lyu, Ming Xiao, Mikael Skoglund, Merouane Debbah, H. Vincent Poor,
- Abstract要約: 大規模人工知能モデル(LAIM)は、AIアプリケーションを具現化するためのコアインテリジェンスエンジンとしてますます見なされている。
この問題に対処するために、具体化されたAIシステムに対する量子化対応協調推論(コ推論)について検討する。
- 参考スコア(独自算出の注目度): 67.66340659245186
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large artificial intelligence models (LAIMs) are increasingly regarded as a core intelligence engine for embodied AI applications. However, the massive parameter scale and computational demands of LAIMs pose significant challenges for resource-limited embodied agents. To address this issue, we investigate quantization-aware collaborative inference (co-inference) for embodied AI systems. First, we develop a tractable approximation for quantization-induced inference distortion. Based on this approximation, we derive lower and upper bounds on the quantization rate-inference distortion function, characterizing its dependence on LAIM statistics, including the quantization bit-width. Next, we formulate a joint quantization bit-width and computation frequency design problem under delay and energy constraints, aiming to minimize the distortion upper bound while ensuring tightness through the corresponding lower bound. Extensive evaluations validate the proposed distortion approximation, the derived rate-distortion bounds, and the effectiveness of the proposed joint design. Particularly, simulations and real-world testbed experiments demonstrate the effectiveness of the proposed joint design in balancing inference quality, latency, and energy consumption in edge embodied AI systems.
- Abstract(参考訳): 大規模人工知能モデル(LAIM)は、AIアプリケーションを具現化するためのコアインテリジェンスエンジンとしてますます見なされている。
しかし、LAIMの膨大なパラメータスケールと計算要求は、資源限定のエンボディエージェントに重大な課題をもたらす。
この問題に対処するために、具体化されたAIシステムに対する量子化対応協調推論(コ推論)について検討する。
まず、量子化誘起推論歪みに対するトラクタブル近似を開発する。
この近似に基づいて、量子化ビット幅を含むLAIM統計への依存を特徴付ける量子化速度-推論歪み関数の下位および上位境界を導出する。
次に、遅延およびエネルギー制約下での連成量子化ビット幅と計算周波数設計問題を定式化し、対応する下界の厳密性を確保しつつ、歪み上界を最小化することを目的とする。
広範囲な評価により, 提案した歪み近似, 導出率歪み境界, および提案した接合設計の有効性が検証された。
特にシミュレーションと実世界のテストベッド実験は、エッジを具現化したAIシステムにおける推論品質、レイテンシ、エネルギー消費のバランスをとる上で、提案された共同設計の有効性を実証している。
関連論文リスト
- Tensor Network Assisted Distributed Variational Quantum Algorithm for Large Scale Combinatorial Optimization Problem [19.046113542182436]
組合せ最適化問題の解法として分散変分量子アルゴリズム(DVQA)を提案する。
DVQAの重要な革新は、複雑な長距離の絡み合いに頼ることなく、変数間の依存関係を保存するために、切り詰められた高階特異値分解を使用することである。
実験的に、DVQAはシミュレーションの最先端性能を達成し、ポートフォリオ最適化のためにWu Kong量子コンピュータで実験的に検証されている。
論文 参考訳(メタデータ) (2026-01-20T13:31:02Z) - Quantum-Classical Hybrid Quantized Neural Network [8.382617481718643]
本稿では、任意のアクティベーションと損失関数の使用を可能にする、量子化されたニューラルネットワークトレーニングのための新しい擬似バイナリ最適化(QBO)モデルを提案する。
我々はQCBO問題を直接解くために量子コンピューティングを利用するQCGD(Quantum Gradient Conditional Descent)アルゴリズムを用いる。
論文 参考訳(メタデータ) (2025-06-23T02:12:36Z) - The Larger the Merrier? Efficient Large AI Model Inference in Wireless Edge Networks [56.37880529653111]
大規模計算モデル(LAIM)サービスの需要は、従来のクラウドベースの推論から、低レイテンシでプライバシ保護のアプリケーションのためのエッジベースの推論へのパラダイムシフトを推進している。
本稿では,事前学習したLAIMをデバイス上のサブモデルとサーバ上のサブモデルに分割して配置するLAIM推論方式について検討する。
論文 参考訳(メタデータ) (2025-05-14T08:18:55Z) - QuartDepth: Post-Training Quantization for Real-Time Depth Estimation on the Edge [55.75103034526652]
ASIC のハードウェアアクセラレーションによる MDE モデルの定量化を後学習量子化に応用した QuartDepth を提案する。
提案手法では,重みとアクティベーションの両方を4ビット精度で定量化し,モデルサイズと計算コストを削減する。
我々は、カーネル融合とカスタマイズされた命令プログラム性をサポートすることにより、フレキシブルでプログラム可能なハードウェアアクセラレータを設計する。
論文 参考訳(メタデータ) (2025-03-20T21:03:10Z) - QuEST: Low-bit Diffusion Model Quantization via Efficient Selective Finetuning [52.157939524815866]
本稿では,不均衡な活性化分布を量子化困難の原因として同定する。
我々は,これらの分布を,より量子化しやすいように微調整することで調整することを提案する。
本手法は3つの高解像度画像生成タスクに対して有効性を示す。
論文 参考訳(メタデータ) (2024-02-06T03:39:44Z) - Truncated Non-Uniform Quantization for Distributed SGD [17.30572818507568]
分散勾配Descent(SGD)の通信効率を高めるための新しい2段階量子化戦略を導入する。
提案手法は, 当初, 長い尾音の影響を軽減するためにトラニケーションを用いており, 続いて, 統計的特性に基づいて, トラニケーション後の勾配の均一な量子化を行う。
提案アルゴリズムは既存の量子化方式よりも優れており,通信効率と収束性能のバランスが優れている。
論文 参考訳(メタデータ) (2024-02-02T05:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。