論文の概要: Optimizing Sensor Redundancy in Sequential Decision-Making Problems
- arxiv url: http://arxiv.org/abs/2412.07686v1
- Date: Tue, 10 Dec 2024 17:20:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:38:01.568256
- Title: Optimizing Sensor Redundancy in Sequential Decision-Making Problems
- Title(参考訳): 逐次決定問題におけるセンサ冗長性の最適化
- Authors: Jonas Nüßlein, Maximilian Zorn, Fabian Ritz, Jonas Stein, Gerhard Stenzel, Julian Schönberger, Thomas Gabor, Claudia Linnhoff-Popien,
- Abstract要約: 強化学習(Reinforcement Learning, RL)ポリシは、現在の観測結果に基づいて行動を予測することで、累積的な将来の報酬を最大化する。
現実世界のアプリケーションでは、センサは現在の状態を計測し、RLポリシーが決定に依存する観察を行うために不可欠である。
本稿では、所定の閾値未満のコストを維持しながら、期待したリターンを最大化するためのバックアップセンサ構成の最適化について検討する。
- 参考スコア(独自算出の注目度): 6.801212913428521
- License:
- Abstract: Reinforcement Learning (RL) policies are designed to predict actions based on current observations to maximize cumulative future rewards. In real-world applications (i.e., non-simulated environments), sensors are essential for measuring the current state and providing the observations on which RL policies rely to make decisions. A significant challenge in deploying RL policies in real-world scenarios is handling sensor dropouts, which can result from hardware malfunctions, physical damage, or environmental factors like dust on a camera lens. A common strategy to mitigate this issue is the use of backup sensors, though this comes with added costs. This paper explores the optimization of backup sensor configurations to maximize expected returns while keeping costs below a specified threshold, C. Our approach uses a second-order approximation of expected returns and includes penalties for exceeding cost constraints. We then optimize this quadratic program using Tabu Search, a meta-heuristic algorithm. The approach is evaluated across eight OpenAI Gym environments and a custom Unity-based robotic environment (RobotArmGrasping). Empirical results demonstrate that our quadratic program effectively approximates real expected returns, facilitating the identification of optimal sensor configurations.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)ポリシは、現在の観測結果に基づいて行動を予測することで、累積的な将来の報酬を最大化する。
現実世界のアプリケーション(例えば非シミュレーション環境)では、センサは現在の状態を計測し、RLポリシーが決定に依存する観察を行うのに不可欠である。
現実のシナリオでRLポリシーをデプロイする上で重要な課題は、ハードウェアの故障、物理的損傷、カメラレンズ上のダストのような環境要因によって生じるセンサーのドロップアウトを処理することだ。
この問題を軽減するための一般的な戦略は、バックアップセンサーの使用であるが、これには追加費用が伴う。
提案手法では,期待されるリターンを2次近似で近似し,コスト制約を超過するペナルティを含む,予測リターンを最大化するためのバックアップセンサ構成の最適化について検討する。
次に,メタヒューリスティックアルゴリズムである Tabu Search を用いて,この二次プログラムを最適化する。
このアプローチは8つのOpenAI Gym環境と、カスタムのUnityベースのロボット環境(RobotArmGrasping)で評価されている。
実験結果から,2次プログラムは現実の期待したリターンを効果的に近似し,最適センサ構成の同定を容易にすることが示唆された。
関連論文リスト
- Cost-Aware Query Policies in Active Learning for Efficient Autonomous Robotic Exploration [0.0]
本稿では,動作コストを考慮しつつ,ガウス過程回帰のためのALアルゴリズムを解析する。
距離制約を持つ伝統的な不確実性計量は、軌道距離上のルート平均二乗誤差を最小化する。
論文 参考訳(メタデータ) (2024-10-31T18:35:03Z) - OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。
OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。
最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文 参考訳(メタデータ) (2024-09-14T07:44:22Z) - Combining Automated Optimisation of Hyperparameters and Reward Shape [7.407166175374958]
本稿では,ハイパーパラメータと報酬関数を組み合わせた最適化手法を提案する。
近似ポリシー最適化とソフト・アクター・クリティカルを用いた広範囲な実験を行った。
以上の結果から,統合最適化は環境の半分のベースライン性能よりも有意に向上し,他の環境との競争性能も向上することが示された。
論文 参考訳(メタデータ) (2024-06-26T12:23:54Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Dealing with uncertainty: balancing exploration and exploitation in deep
recurrent reinforcement learning [0.0]
環境に関する不完全な知識は、不確実性の下で意思決定を行うエージェントを導く。
強化学習(Reinforcement Learning, RL)では、自律的なエージェントが2つの対照的なニーズのバランスを取る必要がある。
適応的手法は、探索と搾取の間のトレードオフを近似した方がよいことを示す。
論文 参考訳(メタデータ) (2023-10-12T13:45:33Z) - Efficient and robust Sensor Placement in Complex Environments [1.1421942894219899]
本稿では,複雑な環境下での効率的な監視やコミュニケーションの課題に対処する。
目的を達成するための欲求的アルゴリズムを提案する。
深層学習技術は目的関数の評価を加速するために用いられる。
論文 参考訳(メタデータ) (2023-09-15T17:10:19Z) - Environmental Sensor Placement with Convolutional Gaussian Neural
Processes [65.13973319334625]
センサーは、特に南極のような遠隔地において、その測定の情報量が最大になるように配置することは困難である。
確率論的機械学習モデルは、予測の不確実性を最大限に低減するサイトを見つけることによって、情報的センサ配置を提案することができる。
本稿では,これらの問題に対処するために,畳み込み型ガウスニューラルプロセス(ConvGNP)を提案する。
論文 参考訳(メタデータ) (2022-11-18T17:25:14Z) - Movement Penalized Bayesian Optimization with Application to Wind Energy
Systems [84.7485307269572]
文脈ベイズ最適化(CBO)は、与えられた側情報を逐次決定する強力なフレームワークである。
この設定では、学習者は各ラウンドでコンテキスト(天気条件など)を受け取り、アクション(タービンパラメータなど)を選択する必要がある。
標準的なアルゴリズムは、すべてのラウンドで意思決定を切り替えるコストを前提としませんが、多くの実用的なアプリケーションでは、このような変更に関連するコストが最小化されるべきです。
論文 参考訳(メタデータ) (2022-10-14T20:19:32Z) - Delayed Geometric Discounts: An Alternative Criterion for Reinforcement
Learning [1.52292571922932]
強化学習(RL)は、最適行動を学ぶ理論的背景を提案する。
実際には、RLアルゴリズムはこの最適性を評価するために幾何割引に依存する。
本稿では,遅延対象関数の族による割引問題定式化を一般化することにより,これらの問題に対処する。
論文 参考訳(メタデータ) (2022-09-26T07:49:38Z) - Energy Aware Deep Reinforcement Learning Scheduling for Sensors
Correlated in Time and Space [62.39318039798564]
相関情報を利用するスケジューリング機構を提案する。
提案したメカニズムは、センサが更新を送信する頻度を決定することができる。
我々は,センサの寿命を大幅に延長できることを示した。
論文 参考訳(メタデータ) (2020-11-19T09:53:27Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。