論文の概要: Information-Driven Adaptive Sensing Based on Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2010.04112v1
- Date: Thu, 8 Oct 2020 16:52:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 11:21:57.744343
- Title: Information-Driven Adaptive Sensing Based on Deep Reinforcement Learning
- Title(参考訳): 深層強化学習に基づく情報駆動型適応センシング
- Authors: Abdulmajid Murad, Frank Alexander Kraemer, Kerstin Bach, Gavin Taylor
- Abstract要約: 我々は,フィッシャー情報量に基づく新たな報酬関数を提示し,研究する。
この報酬関数により、IoTセンサーデバイスは、予測不可能な瞬間に測定に利用可能なエネルギーを費やすことができる。
- 参考スコア(独自算出の注目度): 4.742824364600406
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In order to make better use of deep reinforcement learning in the creation of
sensing policies for resource-constrained IoT devices, we present and study a
novel reward function based on the Fisher information value. This reward
function enables IoT sensor devices to learn to spend available energy on
measurements at otherwise unpredictable moments, while conserving energy at
times when measurements would provide little new information. This is a highly
general approach, which allows for a wide range of use cases without
significant human design effort or hyper-parameter tuning. We illustrate the
approach in a scenario of workplace noise monitoring, where results show that
the learned behavior outperforms a uniform sampling strategy and comes close to
a near-optimal oracle solution.
- Abstract(参考訳): 資源制約されたIoTデバイスに対するセンシングポリシーの作成において、深層強化学習をより活用するために、フィッシャー情報値に基づく新たな報酬関数を提案し、研究する。
この報酬関数により、IoTセンサーデバイスは、予測不可能な瞬間に測定に利用可能なエネルギーを費やすことを学べると同時に、測定がほとんど新しい情報を提供しない時にエネルギーを保存することができる。
これは非常に一般的なアプローチであり、人間の設計努力やハイパーパラメータチューニングを伴わない幅広いユースケースを可能にする。
我々は、職場のノイズモニタリングのシナリオで、学習した振る舞いが一様サンプリング戦略を上回り、ほぼ最適に近いoracleソリューションに近付くことを示す。
関連論文リスト
- Energy-Efficient Federated Edge Learning with Streaming Data: A Lyapunov Optimization Approach [34.00679567444125]
本研究では,長期エネルギー制約下でのデータ到着や資源の可利用性に固有のランダム性に対処する動的スケジューリングと資源割当アルゴリズムを開発した。
提案アルゴリズムは, デバイススケジューリング, 計算容量調整, 帯域幅の割り当ておよび各ラウンドの送信電力を適応的に決定する。
本手法の有効性をシミュレーションにより検証し,ベースライン方式と比較して学習性能とエネルギー効率が向上したことを示す。
論文 参考訳(メタデータ) (2024-05-20T14:13:22Z) - Efficient Meta-Learning Enabled Lightweight Multiscale Few-Shot Object Detection in Remote Sensing Images [15.12889076965307]
YOLOv7ワンステージ検出器は、新しいメタラーニングトレーニングフレームワークが組み込まれている。
この変換により、検出器はFSODのタスクに十分対応できると同時に、その固有の軽量化の利点を活かすことができる。
提案検出器の有効性を検証するため, 現状の検出器と性能比較を行った。
論文 参考訳(メタデータ) (2024-04-29T04:56:52Z) - Sample-Driven Federated Learning for Energy-Efficient and Real-Time IoT
Sensing [22.968661040226756]
我々は,ソフトアクター・クリティカル(A2C)フレームワーク上に構築されたSCFL(Sample-driven Control for Federated Learning)というオンライン強化学習アルゴリズムを導入する。
SCFLにより、エージェントは動的に適応し、変化する環境においてもグローバルな最適条件を見つけることができる。
論文 参考訳(メタデータ) (2023-10-11T13:50:28Z) - Exploration via Planning for Information about the Optimal Trajectory [67.33886176127578]
我々は,タスクと現在の知識を考慮に入れながら,探索を計画できる手法を開発した。
本手法は, 探索基準値よりも2倍少ないサンプルで, 強いポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2022-10-06T20:28:55Z) - Self-supervised Sequential Information Bottleneck for Robust Exploration
in Deep Reinforcement Learning [28.75574762244266]
本研究では、圧縮された時間的コヒーレントな表現を学習するためのシーケンシャルな情報ボトルネックの目標について紹介する。
ノイズの多い環境での効率的な探索のために,タスク関連状態の新規性を捉える本質的な報奨を更に構築する。
論文 参考訳(メタデータ) (2022-09-12T15:41:10Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - Benchmarking Safe Deep Reinforcement Learning in Aquatic Navigation [78.17108227614928]
本研究では,水文ナビゲーションに着目した安全強化学習のためのベンチマーク環境を提案する。
価値に基づく政策段階の深層強化学習(DRL)について考察する。
また,学習したモデルの振る舞いを所望の特性の集合上で検証する検証戦略を提案する。
論文 参考訳(メタデータ) (2021-12-16T16:53:56Z) - Adaptive Informative Path Planning Using Deep Reinforcement Learning for
UAV-based Active Sensing [2.6519061087638014]
深層強化学習(RL)に基づく情報経路計画のための新しい手法を提案する。
本手法は,モンテカルロ木探索とオフライン学習ニューラルネットワークを組み合わせた情報知覚行動の予測を行う。
ミッション中にトレーニングされたネットワークをデプロイすることにより、限られた計算資源を持つ物理プラットフォーム上で、サンプル効率の良いオンラインリプランニングが可能になる。
論文 参考訳(メタデータ) (2021-09-28T09:00:55Z) - Generative Adversarial Reward Learning for Generalized Behavior Tendency
Inference [71.11416263370823]
ユーザの行動嗜好モデルのための生成的逆強化学習を提案する。
我々のモデルは,差別的アクター批判ネットワークとWasserstein GANに基づいて,ユーザの行動から報酬を自動的に学習することができる。
論文 参考訳(メタデータ) (2021-05-03T13:14:25Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - Energy Aware Deep Reinforcement Learning Scheduling for Sensors
Correlated in Time and Space [62.39318039798564]
相関情報を利用するスケジューリング機構を提案する。
提案したメカニズムは、センサが更新を送信する頻度を決定することができる。
我々は,センサの寿命を大幅に延長できることを示した。
論文 参考訳(メタデータ) (2020-11-19T09:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。