論文の概要: Adaptive Budgeted Multi-Armed Bandits for IoT with Dynamic Resource Constraints
- arxiv url: http://arxiv.org/abs/2505.02640v1
- Date: Mon, 05 May 2025 13:33:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.68797
- Title: Adaptive Budgeted Multi-Armed Bandits for IoT with Dynamic Resource Constraints
- Title(参考訳): 動的リソース制約を伴うIoTのための適応的予算付きマルチArmed Bandits
- Authors: Shubham Vaishnav, Praveen Kumar Donta, Sindri Magnússon,
- Abstract要約: モノのインターネットシステムは、変動するリソース制約を管理しながら、デバイスがリアルタイムで応答しなければならない環境でますます運用される。
動的動作制限のあるIoTアプリケーションに適した,新しいBudgeted Multi-Armed Banditフレームワークを提案する。
このモデルでは,学習過程の早い段階で制限された制約違反を許容し,時間とともに厳格なコンプライアンスを徐々に実施する,崩壊する違反予算を導入している。
- 参考スコア(独自算出の注目度): 5.694070924765916
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Internet of Things (IoT) systems increasingly operate in environments where devices must respond in real time while managing fluctuating resource constraints, including energy and bandwidth. Yet, current approaches often fall short in addressing scenarios where operational constraints evolve over time. To address these limitations, we propose a novel Budgeted Multi-Armed Bandit framework tailored for IoT applications with dynamic operational limits. Our model introduces a decaying violation budget, which permits limited constraint violations early in the learning process and gradually enforces stricter compliance over time. We present the Budgeted Upper Confidence Bound (UCB) algorithm, which adaptively balances performance optimization and compliance with time-varying constraints. We provide theoretical guarantees showing that Budgeted UCB achieves sublinear regret and logarithmic constraint violations over the learning horizon. Extensive simulations in a wireless communication setting show that our approach achieves faster adaptation and better constraint satisfaction than standard online learning methods. These results highlight the framework's potential for building adaptive, resource-aware IoT systems.
- Abstract(参考訳): IoT(Internet of Things)システムは、エネルギーや帯域幅を含む変動するリソース制約を管理しながら、デバイスがリアルタイムで応答しなければならない環境において、ますます運用されている。
しかしながら、現在のアプローチは、運用上の制約が時間とともに進化するシナリオに対処する上で不足することが多い。
これらの制限に対処するため、動的操作制限のあるIoTアプリケーションに適した、新しいBudgeted Multi-Armed Banditフレームワークを提案する。
このモデルでは,学習過程の早い段階で制限された制約違反を許容し,時間とともに厳格なコンプライアンスを徐々に実施する,崩壊する違反予算を導入している。
本稿では,性能最適化とコンプライアンスを時間的制約に適応的にバランスさせる,予算付きアッパー信頼境界(UCB)アルゴリズムを提案する。
我々は, 予算付き UCB が学習地平線上でのサブ線形後悔と対数的制約違反を達成できることを理論的に保証する。
無線通信環境における広範囲なシミュレーションにより,従来のオンライン学習手法よりも適応性が向上し,制約満足度が向上することが示された。
これらの結果は、適応的でリソースを意識したIoTシステムを構築するためのフレームワークの可能性を強調している。
関連論文リスト
- LeanTTA: A Backpropagation-Free and Stateless Approach to Quantized Test-Time Adaptation on Edge Devices [13.355021314836852]
本稿では、エッジデバイスに適した量子化テスト時間適応のための、バックプロパゲーションフリーでステートレスな新しいフレームワークであるLeanTTAを紹介する。
バックプロパゲーションなしで正規化統計を動的に更新することで計算コストを最小化する。
我々は,センサのモダリティにまたがる枠組みを検証し,最先端のTTA手法よりも大幅に改善したことを示す。
論文 参考訳(メタデータ) (2025-03-20T06:27:09Z) - Offline Critic-Guided Diffusion Policy for Multi-User Delay-Constrained Scheduling [29.431945795881976]
本稿では,新しいオフライン強化学習アルゴリズムである underlineScheduling を提案する。
プリコンパイルされたEmphofflineデータから、効率的なスケジューリングポリシを純粋に学習する。
我々は、SOCDは、部分的に観測可能で大規模な環境を含む、様々なシステム力学に耐性があることを示します。
論文 参考訳(メタデータ) (2025-01-22T15:13:21Z) - Reinforcement Learning Constrained Beam Search for Parameter Optimization of Paper Drying Under Flexible Constraints [7.014163329716659]
最適化問題における推論時間改善のための強化学習制約ビームサーチ(RLCBS)を提案する。
以上の結果から, RLCBS は NSGA-II よりも複雑な設計制約下で, モジュール構成を推論時に乾燥させるのに優れていた。
論文 参考訳(メタデータ) (2025-01-21T23:16:19Z) - Resilient Constrained Reinforcement Learning [87.4374430686956]
本稿では,複数の制約仕様を事前に特定しない制約付き強化学習(RL)のクラスについて検討する。
報酬訓練目標と制約満足度との間に不明確なトレードオフがあるため、適切な制約仕様を特定することは困難である。
我々は、ポリシーと制約仕様を一緒に検索する新しい制約付きRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:28:23Z) - A Constraint Enforcement Deep Reinforcement Learning Framework for
Optimal Energy Storage Systems Dispatch [0.0]
エネルギー貯蔵システム(ESS)の最適供給は、動的価格の変動、需要消費、再生可能エネルギーの発生による深刻な課題を提起する。
ディープニューラルネットワーク(DNN)の一般化機能を活用することで、ディープ強化学習(DRL)アルゴリズムは、分散ネットワークの性質に適応して応答する良質な制御モデルを学ぶことができる。
本稿では,オンライン操作における環境や行動空間の運用制約を厳格に実施しながら,継続的な行動空間を効果的に処理するDRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-26T17:12:04Z) - Neural Fields with Hard Constraints of Arbitrary Differential Order [61.49418682745144]
我々は、ニューラルネットワークに厳しい制約を課すための一連のアプローチを開発する。
制約は、ニューラルネットワークとそのデリバティブに適用される線形作用素として指定することができる。
私たちのアプローチは、広範囲の現実世界のアプリケーションで実証されています。
論文 参考訳(メタデータ) (2023-06-15T08:33:52Z) - Dynamic Scheduling for Federated Edge Learning with Streaming Data [56.91063444859008]
我々は,長期的エネルギー制約のある分散エッジデバイスにおいて,トレーニングデータを時間とともにランダムに生成するフェデレーションエッジ学習(FEEL)システムを検討する。
限られた通信リソースとレイテンシ要件のため、各イテレーションでローカルトレーニングプロセスに参加するのはデバイスのサブセットのみである。
論文 参考訳(メタデータ) (2023-05-02T07:41:16Z) - Green Offloading in Fog-Assisted IoT Systems: An Online Perspective
Integrating Learning and Control [20.68436820937947]
フォグアシスト型IoTシステムでは、タスク処理のレイテンシとエネルギー消費を減らすために、IoTデバイスから近隣のフォグノードにタスクをオフロードすることが一般的である。
本稿では,時間平均エネルギー消費の長期的制約を伴うマルチアームバンディット(CMAB)問題として,未知のシステムダイナミクスによるタスクオフロード問題を定式化する。
オンライン学習とオンライン制御の効果的な統合により,テキスト学習支援グリーンオフロード(LAGO)方式を提案する。
論文 参考訳(メタデータ) (2020-08-01T07:27:24Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。