Fugu-MT 論文翻訳(概要): OCMDP: Observation-Constrained Markov Decision Process

論文の概要: OCMDP: Observation-Constrained Markov Decision Process

arxiv url: http://arxiv.org/abs/2411.07087v2
Date: Tue, 12 Nov 2024 12:03:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:46.515775
Title: OCMDP: Observation-Constrained Markov Decision Process
Title（参考訳）: OCMDP:観測制約マルコフ決定過程
Authors: Taiyi Wang, Jianheng Liu, Bryan Lee, Zhihao Wu, Yu Wu,
Abstract要約: 我々は、コスト感受性環境における観察と制御戦略を同時に学習する課題に取り組む。我々は,ポリシーのセンシングと制御を分離する反復的,モデルなしの深層強化学習アルゴリズムを開発した。本研究は,HeartPoleを用いたシミュレートされた診断課題と現実的な医療環境に対するアプローチを検証する。
参考スコア（独自算出の注目度）: 9.13947446878397
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: In many practical applications, decision-making processes must balance the costs of acquiring information with the benefits it provides. Traditional control systems often assume full observability, an unrealistic assumption when observations are expensive. We tackle the challenge of simultaneously learning observation and control strategies in such cost-sensitive environments by introducing the Observation-Constrained Markov Decision Process (OCMDP), where the policy influences the observability of the true state. To manage the complexity arising from the combined observation and control actions, we develop an iterative, model-free deep reinforcement learning algorithm that separates the sensing and control components of the policy. This decomposition enables efficient learning in the expanded action space by focusing on when and what to observe, as well as determining optimal control actions, without requiring knowledge of the environment's dynamics. We validate our approach on a simulated diagnostic task and a realistic healthcare environment using HeartPole. Given both scenarios, the experimental results demonstrate that our model achieves a substantial reduction in observation costs on average, significantly outperforming baseline methods by a notable margin in efficiency.
Abstract（参考訳）: 多くの実践的応用において、意思決定プロセスは情報取得のコストとそれが提供する利益のバランスを取る必要がある。従来の制御システムは、観測が高価である場合の非現実的な仮定である完全な可観測性を仮定することが多い。我々は,観測制約付きマルコフ決定プロセス(OCMDP)を導入することで,このようなコスト感受性環境下での観測・制御戦略を同時に学習する課題に取り組む。統合された観測・制御行動から生じる複雑性を管理するため,政策のセンシング・制御要素を分離した反復型モデルフリーの深部強化学習アルゴリズムを開発した。この分解により、環境力学の知識を必要とせず、いつ、何を観察するかに焦点を当てて、拡張された行動空間における効率的な学習を可能にし、最適な制御行動を決定することができる。本研究は,HeartPoleを用いたシミュレートされた診断課題と現実的な医療環境に対するアプローチを検証する。両シナリオから,本モデルが平均観測コストを大幅に削減できることを示した。

関連論文リスト

Instance-Dependent Continuous-Time Reinforcement Learning via Maximum Likelihood Estimation [27.232790785138427]
連続時間強化学習(CTRL)は、動的環境におけるシーケンシャルな意思決定のための自然な枠組みを提供する。経験的成功の度合いは高まっているが、様々なレベルの問題に適応する能力はいまだに理解されていない。本研究では,最大推定値に基づいて構築されたモデルに基づく簡易アルゴリズムのインスタンス依存挙動について検討する。
論文参考訳（メタデータ） (2025-08-04T06:25:45Z)
Designing Robust Software Sensors for Nonlinear Systems via Neural Networks and Adaptive Sliding Mode Control [2.884893167166808]
本稿では,非線形力学系のためのソフトウェアセンサの設計手法を提案する。明示的な変換や線形化に依存する従来のモデルベースオブザーバとは異なり、提案フレームワークはニューラルネットワークと適応スライディングモード制御(SMC)を統合している。トレーニング手法は、物理に基づく制約としてシステムの制御方程式を活用することで、基底構造軌道にアクセスせずにオブザーバ合成を可能にする。
論文参考訳（メタデータ） (2025-07-09T13:06:58Z)
Do We Need to Verify Step by Step? Rethinking Process Supervision from a Theoretical Perspective [59.61868506896214]
標準的なデータカバレッジの仮定では、強化学習はプロセスの監督よりも統計的に難しいものではない。任意のポリシーの利点関数が最適なプロセス報酬モデルとして機能することを証明する。
論文参考訳（メタデータ） (2025-02-14T22:21:56Z)
Autonomous Goal Detection and Cessation in Reinforcement Learning: A Case Study on Source Term Estimation [24.984938229619075]
強化学習は動的環境における意思決定プロセスに革命をもたらした。正確な環境情報がないため、明確なフィードバック信号の提供は困難である。本研究では,タスク完了時の自律目標検出と停止のための自己フィードバック機構を開発する。
論文参考訳（メタデータ） (2024-09-14T21:42:17Z)
Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文参考訳（メタデータ） (2024-04-05T17:58:37Z)
Explaining by Imitating: Understanding Decisions by Interpretable Policy Learning [72.80902932543474]
観察されたデータから人間の行動を理解することは、意思決定における透明性と説明責任にとって重要である。意思決定者の方針をモデル化することが困難である医療などの現実的な設定を考えてみましょう。本稿では, 設計による透明性の向上, 部分観測可能性の確保, 完全にオフラインで動作可能なデータ駆動型意思決定行動の表現を提案する。
論文参考訳（メタデータ） (2023-10-28T13:06:14Z)
Conditional Kernel Imitation Learning for Continuous State Environments [9.750698192309978]
条件付きカーネル密度推定に基づく新しい模倣学習フレームワークを提案する。我々は、多くの最先端ILアルゴリズムよりも一貫して優れた経験的性能を示す。
論文参考訳（メタデータ） (2023-08-24T05:26:42Z)
Online Modeling and Monitoring of Dependent Processes under Resource Constraints [11.813520177037763]
提案手法は,限られた資源下での依存プロセスの活用と探索を最適に行うために,協調学習に基づくアッパー信頼境界(CL-UCB)アルゴリズムを設計する。提案手法の有効性は, 理論解析, シミュレーション研究, およびアルツハイマー病における適応認知モニタリングの実証研究を通じて実証された。
論文参考訳（メタデータ） (2023-07-26T14:14:38Z)
Worst-Case Control and Learning Using Partial Observations Over an Infinite Time-Horizon [2.456909016197174]
安全クリティカルなサイバー物理システムは、敵の混乱に対する堅牢な制御戦略と不確実性をモデル化する必要がある。有限時間地平線上での最悪の割引コストを最小限に抑えるため,部分観測システムにおける近似制御と学習の枠組みを提案する。
論文参考訳（メタデータ） (2023-03-28T21:40:06Z)
Reinforcement Learning under Partial Observability Guided by Learned Environment Models [1.1470070927586016]
本稿では,部分観測可能な環境における強化学習(RL)のアプローチを提案する。提案手法は,マルコフ決定過程の学習方法であるIoAlergiaとQ-ラーニングを組み合わせたものである。本稿では,6つの最先端深部RL技術と比較して,本手法の有効性と有望な性能について報告する。
論文参考訳（メタデータ） (2022-06-23T13:55:13Z)
Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文参考訳（メタデータ） (2021-10-28T17:46:14Z)
DEALIO: Data-Efficient Adversarial Learning for Imitation from Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。よりデータ効率の高いifOアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-03-31T23:46:32Z)
The Impact of Data on the Stability of Learning-Based Control- Extended Version [63.97366815968177]
本稿では,Lyapunovをベースとした,認証制御性能に対するデータの影響の定量化手法を提案する。ガウス過程を通じて未知系の力学をモデル化することにより、モデルの不確実性と安定性条件の満足度の間の相互関係を決定できる。
論文参考訳（メタデータ） (2020-11-20T19:10:01Z)
Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文参考訳（メタデータ） (2020-02-10T04:23:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。