論文の概要: Safe Multi-Agent Deep Reinforcement Learning for Privacy-Aware Edge-Device Collaborative DNN Inference
- arxiv url: http://arxiv.org/abs/2603.00129v1
- Date: Mon, 23 Feb 2026 11:33:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.040239
- Title: Safe Multi-Agent Deep Reinforcement Learning for Privacy-Aware Edge-Device Collaborative DNN Inference
- Title(参考訳): プライバシーを考慮したエッジデバイス協調DNN推論のための安全マルチエージェント深層強化学習
- Authors: Hong Wang, Xuwei Fan, Zhipeng Cheng, Yachao Yuan, Minghui Min, Minghui Liwang, Xiaoyu Xia,
- Abstract要約: 本稿では,エッジデバイスとサーバ間で適応モデル分割を行う,プライバシ対応協調推論フレームワークを提案する。
本稿では,モデル配置,ユーザサーバアソシエーション,モデル分割,リソースアロケーションを統合したCMDP(Constrained Markov Decision Process)として共同問題を定式化する。
HC-MAPPO-Lは、エネルギー消費とプライバシコストのバランスを保ちながら、厳しい遅延制約を一貫して満たしていることを示す。
- 参考スコア(独自算出の注目度): 8.14391361533752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Deep Neural Network (DNN) inference becomes increasingly prevalent on edge and mobile platforms, critical challenges emerge in privacy protection, resource constraints, and dynamic model deployment. This paper proposes a privacy-aware collaborative inference framework, in which adaptive model partitioning is performed across edge devices and servers. To jointly optimize inference delay, energy consumption, and privacy cost under dynamic service demands and resource constraints, we formulate the joint problem as a Constrained Markov Decision Process (CMDP) that integrates model deployment, user-server association, model partitioning, and resource allocation. We propose a Hierarchical Constrained Multi-Agent Proximal Policy Optimization with Lagrangian relaxation (HC-MAPPO-L) algorithm, a safe reinforcement learning-based framework that enhances Multi-Agent Proximal Policy Optimization (MAPPO) with adaptive Lagrangian dual updates to enforce long-term delay constraints. To ensure tractability while maintaining coordination, we decompose the CMDP into three hierarchically structured policy layers: an auto-regressive based model deployment policy, a Lagrangian-enhanced user association and model partitioning policy, and an attention-based resource allocation policy. Extensive experimental results demonstrate that HC-MAPPO-L consistently satisfies stringent delay constraints while achieving a superior balance among energy consumption and privacy cost, outperforming representative baseline algorithms across varying problem scales and resource configurations.
- Abstract(参考訳): Deep Neural Network(DNN)推論がエッジとモバイルプラットフォームでますます普及するにつれて、プライバシ保護、リソース制約、動的モデルデプロイメントにおいて重要な課題が生まれる。
本稿では,エッジデバイスとサーバ間で適応モデル分割を行う,プライバシ対応協調推論フレームワークを提案する。
動的サービス要求およびリソース制約下での推論遅延,エネルギー消費,プライバシコストを共同で最適化するために,モデル展開,ユーザサーバアソシエーション,モデル分割,リソース割り当てを統合した制約付きマルコフ決定プロセス(CMDP)として,共同問題を定式化する。
ラグランジアン緩和(HC-MAPPO-L)アルゴリズムを用いた階層的制約付きマルチエージェントポリシー最適化を提案する。
協調性を維持しながらトラクタビリティを確保するため、CMDPは自動回帰モデル配置ポリシー、ラグランジアン強化ユーザアソシエーションとモデル分割ポリシー、アテンションベースリソースアロケーションポリシーの3つの階層構造に分解する。
HC-MAPPO-Lは、エネルギー消費とプライバシコストのバランスが良好であり、様々な問題スケールやリソース構成にまたがる代表的ベースラインアルゴリズムよりも優れた性能を保っている。
関連論文リスト
- MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - QoS-Aware Hierarchical Reinforcement Learning for Joint Link Selection and Trajectory Optimization in SAGIN-Supported UAV Mobility Management [52.15690855486153]
宇宙空間統合ネットワーク (SAGIN) がユビキタスUAV接続を実現するための重要なアーキテクチャとして登場した。
本稿では,SAGINにおけるUAVモビリティ管理を制約付き多目的関節最適化問題として定式化する。
論文 参考訳(メタデータ) (2025-12-17T06:22:46Z) - Multi-Objective Reward and Preference Optimization: Theory and Algorithms [3.316593788543852]
この論文は、制御、嗜好学習、大規模言語モデルのアライメントを越えて制約付き強化学習(RL)を進める理論的枠組みとアルゴリズムを開発する。
ACPO, e-COP, warmPref-PS, PSPL, MOPOは, 平均コスト, エピソード, 嗜好駆動のパラダイムでRLを推し進める。
集合的に、論文はRLを平均的コスト、エピソード、および嗜好駆動のパラダイムで統一し、理論的な進歩と、安全で整合した意思決定のための実践的なツールを提供する。
論文 参考訳(メタデータ) (2025-12-11T12:51:21Z) - A Flexible Multi-Agent Deep Reinforcement Learning Framework for Dynamic Routing and Scheduling of Latency-Critical Services [18.675072317045466]
既存のネットワーク制御ソリューションの多くは平均遅延性能のみを目標としており、厳格なEnd-to-End(E2E)ピークレイテンシ保証を提供していない。
本稿では,MA-DRL(Multi-Agent Deep Reinforcement Learning)の最近の進歩を生かして,適用期限内にパケットを確実に届けることの課題に対処する。
本稿では,集中型ルーティングと分散スケジューリングアーキテクチャを活用したMA-DRLネットワーク制御フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-13T15:38:10Z) - RCCDA: Adaptive Model Updates in the Presence of Concept Drift under a Constrained Resource Budget [28.53294084812961]
リアルタイム機械学習アルゴリズムは、コンセプトドリフトにモデルを適用するという課題に直面していることが多い。
既存のソリューションは、しばしば資源制約された環境に対して高い計算オーバーヘッドをもたらすドリフト検出法に依存している。
本稿では,MLトレーニングのダイナミクスを最適化し,事前定義されたリソース制約へのコンプライアンスを確保した動的モデル更新ポリシーであるRCCDAを提案する。
論文 参考訳(メタデータ) (2025-05-30T02:49:42Z) - Privacy-Aware Joint DNN Model Deployment and Partitioning Optimization for Collaborative Edge Inference Services [14.408050197587654]
エッジ推論(EI)は、クラウドベースのDeep Neural Network(DNN)推論サービスの増加に対処する、有望なパラダイムとして登場した。
リソース制約のあるエッジデバイスにDNNモデルをデプロイすることは、制限/ストレージリソース、動的サービス要求、プライバシーリスクの増大など、さらなる課題をもたらす。
本稿では,DNNモデルデプロイメント,ユーザサーバアソシエーション,モデルパーティショニングを共同で扱う,新たなプライバシ対応最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-22T05:27:24Z) - Predictive Lagrangian Optimization for Constrained Reinforcement Learning [15.082498910832529]
制約付き最適化は、複雑な制御タスクに対処するための強化学習で一般的に見られる。
本稿では,制約付き最適化とフィードバック制御システムとの接続を構築するための,より汎用的な等価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-25T13:39:45Z) - Design Optimization of NOMA Aided Multi-STAR-RIS for Indoor Environments: A Convex Approximation Imitated Reinforcement Learning Approach [51.63921041249406]
非直交多重アクセス(Noma)により、複数のユーザが同じ周波数帯域を共有でき、同時に再構成可能なインテリジェントサーフェス(STAR-RIS)を送信および反射することができる。
STAR-RISを屋内に展開することは、干渉緩和、電力消費、リアルタイム設定における課題を提示する。
複数のアクセスポイント(AP)、STAR-RIS、NOMAを利用した新しいネットワークアーキテクチャが屋内通信のために提案されている。
論文 参考訳(メタデータ) (2024-06-19T07:17:04Z) - Artificial Intelligence Empowered Multiple Access for Ultra Reliable and
Low Latency THz Wireless Networks [76.89730672544216]
テラヘルツ(THz)無線ネットワークは、第5世代(B5G)以上の時代を触媒すると予想されている。
いくつかのB5Gアプリケーションの超信頼性と低レイテンシ要求を満たすためには、新しいモビリティ管理アプローチが必要である。
本稿では、インテリジェントなユーザアソシエーションとリソースアロケーションを実現するとともに、フレキシブルで適応的なモビリティ管理を可能にする、全体論的MAC層アプローチを提案する。
論文 参考訳(メタデータ) (2022-08-17T03:00:24Z) - Distributed Reinforcement Learning for Privacy-Preserving Dynamic Edge
Caching [91.50631418179331]
MECネットワークにおけるデバイスのキャッシュヒット率を最大化するために,プライバシ保護型分散ディープポリシー勾配(P2D3PG)を提案する。
分散最適化をモデルフリーなマルコフ決定プロセス問題に変換し、人気予測のためのプライバシー保護フェデレーション学習手法を導入する。
論文 参考訳(メタデータ) (2021-10-20T02:48:27Z) - Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned
Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。
本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文 参考訳(メタデータ) (2020-10-08T15:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。