論文の概要: Cognitive Edge Computing: A Comprehensive Survey on Optimizing Large Models and AI Agents for Pervasive Deployment
- arxiv url: http://arxiv.org/abs/2501.03265v2
- Date: Fri, 07 Nov 2025 13:51:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 14:53:49.392559
- Title: Cognitive Edge Computing: A Comprehensive Survey on Optimizing Large Models and AI Agents for Pervasive Deployment
- Title(参考訳): 認知エッジコンピューティング: 大規模モデルとAIエージェントの広範展開に対する最適化に関する総合的な調査
- Authors: Xubin Wang, Qing Li, Weijia Jia,
- Abstract要約: 本稿では、ネットワークエッジのリソース制約されたデバイス上で、推論可能な大規模言語モデル(LLM)と自律AIエージェントをデプロイするための実用的かつ方法論的な経路として認知エッジコンピューティングを調査する。
本稿では,メモリ/計算予算の厳密化による多段階推論の維持を目的とした,統合された認知保存フレームワークを提案する。
我々は,効率的なトランスフォーマー設計,マルチモーダル統合,ハードウェア対応コンパイル,プライバシ保護学習,エージェントツール利用の進歩を合成し,それらをエッジ固有の操作エンベロープにマップする。
- 参考スコア(独自算出の注目度): 12.921833067052928
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This article surveys Cognitive Edge Computing as a practical and methodical pathway for deploying reasoning-capable Large Language Models (LLMs) and autonomous AI agents on resource-constrained devices at the network edge. We present a unified, cognition-preserving framework spanning: (1) model optimization (quantization, sparsity, low-rank adaptation, distillation) aimed at retaining multi-step reasoning under tight memory/compute budgets; (2) system architecture (on-device inference, elastic offloading, cloud-edge collaboration) that trades off latency, energy, privacy, and capacity; and (3) adaptive intelligence (context compression, dynamic routing, federated personalization) that tailors computation to task difficulty and device constraints. We synthesize advances in efficient Transformer design, multimodal integration, hardware-aware compilation, privacy-preserving learning, and agentic tool use, and map them to edge-specific operating envelopes. We further outline a standardized evaluation protocol covering latency, throughput, energy per token, accuracy, robustness, privacy, and sustainability, with explicit measurement assumptions to enhance comparability. Remaining challenges include modality-aware reasoning benchmarks, transparent and reproducible energy reporting, edge-oriented safety/alignment evaluation, and multi-agent testbeds. We conclude with practitioner guidelines for cross-layer co-design of algorithms, runtime, and hardware to deliver reliable, efficient, and privacy-preserving cognitive capabilities on edge devices.
- Abstract(参考訳): 本稿では、ネットワークエッジのリソース制約されたデバイス上で、推論可能な大規模言語モデル(LLM)と自律AIエージェントをデプロイするための実用的かつ方法論的な経路として認知エッジコンピューティングを調査する。
筆者らは,(1)厳密なメモリ/計算予算下での多段階推論の維持を目的としたモデル最適化(量子化,スパーシリティ,低ランク適応,蒸留),(2)レイテンシ,エネルギ,プライバシ,キャパシティをトレードオフするシステムアーキテクチャ(オンデバイス推論,エラスティックオフロード,クラウドエッジコラボレーション),(3)適応知性(テキスト圧縮,ダイナミックルーティング,フェデレーションパーソナライゼーション)をタスクの困難とデバイス制約に合わせる。
我々は,効率的なトランスフォーマー設計,マルチモーダル統合,ハードウェア対応コンパイル,プライバシ保護学習,エージェントツール利用の進歩を合成し,それらをエッジ固有の操作エンベロープにマップする。
さらに、レイテンシ、スループット、トークン当たりのエネルギ、正確性、堅牢性、プライバシ、持続可能性に関する標準化された評価プロトコルを概説する。
残る課題としては、モダリティ対応推論ベンチマーク、透過的で再現可能なエネルギーレポート、エッジ指向の安全性/アライメント評価、マルチエージェントテストベッドなどがある。
エッジデバイス上で信頼性、効率的、プライバシ保護の認知機能を提供するために、アルゴリズム、ランタイム、ハードウェアをクロスレイヤで共同設計するための実践的ガイドラインで締めくくります。
関連論文リスト
- Edge-Cloud Collaborative Computing on Distributed Intelligence and Model Optimization: A Survey [59.52058740470727]
エッジクラウドコラボレーティブコンピューティング(ECCC)は、現代のインテリジェントアプリケーションの計算要求に対処するための重要なパラダイムとして登場した。
AIの最近の進歩、特にディープラーニングと大規模言語モデル(LLM)は、これらの分散システムの能力を劇的に向上させてきた。
この調査は、基本的なアーキテクチャ、技術の実現、新しいアプリケーションに関する構造化されたチュートリアルを提供する。
論文 参考訳(メタデータ) (2025-05-03T13:55:38Z) - Empowering Edge Intelligence: A Comprehensive Survey on On-Device AI Models [16.16798813072285]
人工知能(AI)技術の急速な進歩により、エッジと端末デバイスへのAIモデルの展開が増加している。
この調査は、オンデバイスAIモデルの現状、技術的な課題、今後のトレンドを包括的に調査する。
論文 参考訳(メタデータ) (2025-03-08T02:59:51Z) - On Accelerating Edge AI: Optimizing Resource-Constrained Environments [1.7355861031903428]
リソース制約のあるエッジデプロイメントでは、厳格な計算、メモリ、エネルギー制限とハイパフォーマンスのバランスをとるAIソリューションが要求される。
本稿では,このような制約下でのディープラーニングモデルを加速するための主要な戦略について概観する。
論文 参考訳(メタデータ) (2025-01-25T01:37:03Z) - A Survey on Inference Optimization Techniques for Mixture of Experts Models [50.40325411764262]
MoEモデルは、条件付き計算によるモデルキャパシティと計算効率の向上を提供する。
MoEモデルの展開と推測は、計算資源、レイテンシ、エネルギー効率の面で大きな課題をもたらす。
この調査は、システムスタック全体にわたるMoEモデルの推論最適化手法の現在の状況を体系的に分析する。
論文 参考訳(メタデータ) (2024-12-18T14:11:15Z) - Two-Timescale Model Caching and Resource Allocation for Edge-Enabled AI-Generated Content Services [55.0337199834612]
Generative AI(GenAI)は、カスタマイズされたパーソナライズされたAI生成コンテンツ(AIGC)サービスを可能にするトランスフォーメーション技術として登場した。
これらのサービスは数十億のパラメータを持つGenAIモデルの実行を必要とし、リソース制限の無線エッジに重大な障害を生じさせる。
我々は、AIGC品質とレイテンシメトリクスのトレードオフをバランスさせるために、AIGCサービスのジョイントモデルキャッシングとリソースアロケーションの定式化を導入する。
論文 参考訳(メタデータ) (2024-11-03T07:01:13Z) - Profiling AI Models: Towards Efficient Computation Offloading in Heterogeneous Edge AI Systems [0.2357055571094446]
本稿では、AIモデルのプロファイリング、モデルタイプと基盤となるハードウェアに関するデータ収集、リソース利用とタスク完了時間の予測に焦点を当てた研究ロードマップを提案する。
3,000以上の実行での実験は、リソース割り当ての最適化とEdge AIのパフォーマンス向上を約束している。
論文 参考訳(メタデータ) (2024-10-30T16:07:14Z) - Resource-Efficient Generative AI Model Deployment in Mobile Edge Networks [15.958822667638405]
エッジ上の利用可能なリソースの不足は、生成AIモデルをデプロイする上で大きな課題を生じさせる。
我々は、エッジ上に生成するAIモデルのデプロイメントを適切に管理することを目的とした、協調的なエッジクラウドフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-09T03:17:28Z) - XEdgeAI: A Human-centered Industrial Inspection Framework with Data-centric Explainable Edge AI Approach [2.0209172586699173]
本稿では,新しいXAI統合視覚品質検査フレームワークを提案する。
我々のフレームワークはXAIとLarge Vision Language Modelを組み込んで人間中心の解釈可能性を提供する。
このアプローチは、重要な産業アプリケーションに信頼性と解釈可能なAIツールを広く採用する道を開くものだ。
論文 参考訳(メタデータ) (2024-07-16T14:30:24Z) - Inference Optimization of Foundation Models on AI Accelerators [68.24450520773688]
トランスフォーマーアーキテクチャを備えた大規模言語モデル(LLM)を含む強力な基礎モデルは、ジェネレーティブAIの新たな時代を支えている。
モデルパラメータの数が数十億に達すると、実際のシナリオにおける推論コストと高いレイテンシーが排除される。
このチュートリアルでは、AIアクセラレータを用いた補完推論最適化テクニックに関する包括的な議論を行っている。
論文 参考訳(メタデータ) (2024-07-12T09:24:34Z) - Automatic AI Model Selection for Wireless Systems: Online Learning via Digital Twinning [50.332027356848094]
AIベースのアプリケーションは、スケジューリングや電力制御などの機能を実行するために、インテリジェントコントローラにデプロイされる。
コンテキストとAIモデルのパラメータのマッピングは、ゼロショット方式で理想的に行われる。
本稿では,AMSマッピングのオンライン最適化のための一般的な手法を紹介する。
論文 参考訳(メタデータ) (2024-06-22T11:17:50Z) - GISTEmbed: Guided In-sample Selection of Training Negatives for Text
Embedding Fine-tuning [0.0]
GISTEmbedは、ガイドモデルによる対照的なトレーニングにおいて、バッチ内のネガティブな選択を強化する新しい戦略である。
MTEB(Massive Text Embedding Benchmark)に対してベンチマークされたGISTEmbedは、さまざまなモデルサイズで一貫したパフォーマンス改善を示している。
論文 参考訳(メタデータ) (2024-02-26T18:55:15Z) - Machine Learning Insides OptVerse AI Solver: Design Principles and
Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。
本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。
本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文 参考訳(メタデータ) (2024-01-11T15:02:15Z) - Reconfigurable Intelligent Surface Assisted Mobile Edge Computing with
Heterogeneous Learning Tasks [53.1636151439562]
モバイルエッジコンピューティング(MEC)は、AIアプリケーションに自然なプラットフォームを提供します。
再構成可能なインテリジェントサーフェス(RIS)の助けを借りて、MECで機械学習タスクを実行するインフラストラクチャを提示します。
具体的には,モバイルユーザの送信パワー,基地局のビームフォーミングベクトル,risの位相シフト行列を共同で最適化することにより,参加ユーザの学習誤差を最小化する。
論文 参考訳(メタデータ) (2020-12-25T07:08:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。