論文の概要: Rethinking Inference Placement for Deep Learning across Edge and Cloud Platforms: A Multi-Objective Optimization Perspective and Future Directions
- arxiv url: http://arxiv.org/abs/2510.22909v1
- Date: Mon, 27 Oct 2025 01:26:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.415483
- Title: Rethinking Inference Placement for Deep Learning across Edge and Cloud Platforms: A Multi-Objective Optimization Perspective and Future Directions
- Title(参考訳): エッジとクラウドプラットフォームにわたるディープラーニングのための推論配置の再考:多目的最適化の視点と今後の方向性
- Authors: Zongshun Zhang, Ibrahim Matta,
- Abstract要約: VR/ARや言語モデルベースのチャットボットといったエッジインテリジェントなアプリケーションは、IoTとモバイルデバイスの急速な拡張によって、広く普及しています。
制約のあるエッジデバイスは、ますます大きく複雑なディープラーニング(DL)モデルには役に立たないことが多い。
これらの課題を軽減するため、研究者は、ユーザデバイス、エッジサーバ、クラウド間のDLモデルのパーティションの最適化とオフロードを提案している。
- 参考スコア(独自算出の注目度): 0.15039745292757667
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Edge intelligent applications like VR/AR and language model based chatbots have become widespread with the rapid expansion of IoT and mobile devices. However, constrained edge devices often cannot serve the increasingly large and complex deep learning (DL) models. To mitigate these challenges, researchers have proposed optimizing and offloading partitions of DL models among user devices, edge servers, and the cloud. In this setting, users can take advantage of different services to support their intelligent applications. For example, edge resources offer low response latency. In contrast, cloud platforms provide low monetary cost computation resources for computation-intensive workloads. However, communication between DL model partitions can introduce transmission bottlenecks and pose risks of data leakage. Recent research aims to balance accuracy, computation delay, transmission delay, and privacy concerns. They address these issues with model compression, model distillation, transmission compression, and model architecture adaptations, including internal classifiers. This survey contextualizes the state-of-the-art model offloading methods and model adaptation techniques by studying their implication to a multi-objective optimization comprising inference latency, data privacy, and resource monetary cost.
- Abstract(参考訳): VR/ARや言語モデルベースのチャットボットといったエッジインテリジェントなアプリケーションは、IoTとモバイルデバイスの急速な拡張によって、広く普及しています。
しかし、制約のあるエッジデバイスは、ますます大きく複雑なディープラーニング(DL)モデルには役に立たないことが多い。
これらの課題を軽減するため、研究者は、ユーザデバイス、エッジサーバ、クラウド間のDLモデルのパーティションの最適化とオフロードを提案している。
この設定では、ユーザはインテリジェントなアプリケーションをサポートするために、さまざまなサービスを利用することができます。
例えば、エッジリソースはレスポンスのレイテンシを低くします。
対照的に、クラウドプラットフォームは、計算集約的なワークロードに対して、低い金銭的コスト計算リソースを提供します。
しかし、DLモデルパーティション間の通信は、送信ボトルネックを導入し、データ漏洩のリスクを生じさせる可能性がある。
最近の研究は、精度、計算遅延、送信遅延、プライバシーの懸念のバランスをとることを目的としている。
モデル圧縮、モデル蒸留、送信圧縮、内部分類器を含むモデルアーキテクチャ適応といった問題に対処する。
この調査は、推論遅延、データプライバシ、リソースの金銭的コストを含む多目的最適化にその意味を研究することによって、最先端のモデルオフロード手法とモデル適応手法を文脈的に分析する。
関連論文リスト
- Edge-First Language Model Inference: Models, Metrics, and Tradeoffs [0.7980273012483663]
本研究は、単一エッジデバイス上でのSLM機能の詳細なベンチマークから始まる、エッジとクラウドのデプロイメント間の相互作用について検討する。
エッジ推論が低コストで同等のパフォーマンスを提供するシナリオや、スケーラビリティやモデルキャパシティの制限によりクラウドのフォールバックが不可欠になるシナリオを特定します。
プラットフォームレベルの比較と設計の洞察を,一様かつ適応的なLM推論システム構築のために提案する。
論文 参考訳(メタデータ) (2025-05-22T10:43:00Z) - Sometimes Painful but Certainly Promising: Feasibility and Trade-offs of Language Model Inference at the Edge [3.1471494780647795]
最近の傾向はコンパクトモデル(典型的には量子化のような技術によって100億のパラメータが許容される)に注目が集まっていることを示している。
このシフトは、エッジデバイス上でのLMの道を開き、プライバシーの強化、レイテンシの低減、データ主権の向上といった潜在的なメリットを提供する。
本稿では,CPUベースおよびGPUアクセラレーションエッジデバイスにおけるジェネレーティブLM推論の総合評価を行う。
論文 参考訳(メタデータ) (2025-03-12T07:01:34Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Visual Prompting Upgrades Neural Network Sparsification: A Data-Model Perspective [64.04617968947697]
より優れた重量空間を実現するために、新しいデータモデル共設計視点を導入する。
具体的には、提案したVPNフレームワークでニューラルネットワークのスパーシフィケーションをアップグレードするために、カスタマイズされたVisual Promptが実装されている。
論文 参考訳(メタデータ) (2023-12-03T13:50:24Z) - Enabling Resource-efficient AIoT System with Cross-level Optimization: A
survey [20.360136850102833]
この調査は、より自由なリソースパフォーマンストレードオフのために、より広い最適化スペースを提供することを目的としています。
様々なレベルに散らばる問題やテクニックを統合することで、読者のつながりを理解し、さらなる議論を促すことを目指している。
論文 参考訳(メタデータ) (2023-09-27T08:04:24Z) - DUET: A Tuning-Free Device-Cloud Collaborative Parameters Generation Framework for Efficient Device Model Generalization [66.27399823422665]
デバイスモデル一般化(Device Model Generalization, DMG)は、デバイス上での機械学習アプリケーションにおいて、実用的ながら実証されていない研究トピックである。
本稿では,Device-cloUdコラボレーティブパラメトリクスフレームワークDUETを提案する。
論文 参考訳(メタデータ) (2022-09-12T13:26:26Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - Cost-effective Machine Learning Inference Offload for Edge Computing [0.3149883354098941]
本稿では,インストール・ベース・オンプレミス(edge)計算資源を活用した新しいオフロード機構を提案する。
提案するメカニズムにより、エッジデバイスは、リモートクラウドを使用する代わりに、重い計算集約的なワークロードをエッジノードにオフロードすることができる。
論文 参考訳(メタデータ) (2020-12-07T21:11:02Z) - Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned
Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。
本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文 参考訳(メタデータ) (2020-10-08T15:27:50Z) - Deep Learning for Ultra-Reliable and Low-Latency Communications in 6G
Networks [84.2155885234293]
まず,データ駆動型教師付き深層学習と深部強化学習をURLLCに適用する方法を概説する。
このようなオープンな問題に対処するために、デバイスインテリジェンス、エッジインテリジェンス、およびURLLCのためのクラウドインテリジェンスを可能にするマルチレベルアーキテクチャを開発した。
論文 参考訳(メタデータ) (2020-02-22T14:38:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。