論文の概要: Accountability in Offline Reinforcement Learning: Explaining Decisions
with a Corpus of Examples
- arxiv url: http://arxiv.org/abs/2310.07747v2
- Date: Fri, 27 Oct 2023 16:23:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 16:39:07.229802
- Title: Accountability in Offline Reinforcement Learning: Explaining Decisions
with a Corpus of Examples
- Title(参考訳): オフライン強化学習における説明責任--コーパスによる決定の説明
- Authors: Hao Sun, Alihan H\"uy\"uk, Daniel Jarrett, Mihaela van der Schaar
- Abstract要約: 本稿では、オフラインデータセットを決定コーパスとして利用するAOC(Accountable Offline Controller)を紹介する。
AOCはローデータシナリオで効果的に動作し、厳密なオフラインの模倣設定まで拡張でき、保存性と適応性の両方の品質を示す。
シミュレーションおよび実世界の医療シナリオにおいて、AOCのパフォーマンスを評価し、説明責任を維持しながら高いレベルのパフォーマンスでオフライン制御タスクを管理する能力を強調した。
- 参考スコア(独自算出の注目度): 70.84093873437425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning controllers with offline data in decision-making systems is an
essential area of research due to its potential to reduce the risk of
applications in real-world systems. However, in responsibility-sensitive
settings such as healthcare, decision accountability is of paramount
importance, yet has not been adequately addressed by the literature. This paper
introduces the Accountable Offline Controller (AOC) that employs the offline
dataset as the Decision Corpus and performs accountable control based on a
tailored selection of examples, referred to as the Corpus Subset. AOC operates
effectively in low-data scenarios, can be extended to the strictly offline
imitation setting, and displays qualities of both conservation and
adaptability. We assess AOC's performance in both simulated and real-world
healthcare scenarios, emphasizing its capability to manage offline control
tasks with high levels of performance while maintaining accountability.
- Abstract(参考訳): 意思決定システムにおけるオフラインデータを用いた学習コントローラは、実世界のシステムにおけるアプリケーションのリスクを低減できる可能性から、重要な研究分野である。
しかし、医療などの責任に敏感な環境では、決定責任は最重要視されているが、文献では適切に扱われていない。
本稿では、オフラインデータセットを決定コーパスとして利用し、コーパスサブセットと呼ばれるサンプルの調整された選択に基づいて説明責任制御を行うAOC(Accountable Offline Controller)を提案する。
AOCはローデータシナリオで効果的に動作し、厳密なオフラインの模倣設定まで拡張でき、保存性と適応性の両方の品質を示す。
シミュレーションと実世界の医療シナリオの両方におけるaocのパフォーマンスを評価し、アカウンタビリティを維持しつつ、高いレベルのパフォーマンスでオフライン制御タスクを管理する能力を強調した。
関連論文リスト
- Offline Inverse Constrained Reinforcement Learning for Safe-Critical Decision Making in Healthcare [8.920060884688395]
医療に応用された強化学習(RL)は、過度の服用や急激な変化など、安全でない医療判断や治療につながる可能性がある。
最近の逆制約強化学習(ICRL)は、専門家による実証から制約を推測する有望なアプローチである。
これらの設定は、オフラインデータセットに記録された歴史的な処理に依存する医療における意思決定システムの実践的な要件とは一致しない。
具体的には,1)制約の重み付けに非マルコフ層を用いながら,歴史的決定と観察を制約モデルに組み込む因果的注意機構を利用する。
論文 参考訳(メタデータ) (2024-10-10T01:36:27Z) - Blackout Mitigation via Physics-guided RL [17.807967857394406]
本稿では,ブラックアウト防止の究極の目的として,システム異常に応答する修復的制御行動の逐次設計について考察する。
物理誘導型強化学習フレームワークは、リアルタイム・リメディアル・ルックアヘッド決定の効果的なシーケンスを特定するように設計されている。
論文 参考訳(メタデータ) (2024-01-17T23:27:36Z) - Investigating Robustness in Cyber-Physical Systems: Specification-Centric Analysis in the face of System Deviations [8.8690305802668]
サイバー物理システム(CPS)の重要属性は堅牢性であり、安全に運用する能力を示している。
本稿では,特定のシステム要件を満たす上でのコントローラの有効性を特徴付ける,仕様に基づく新しいロバスト性を提案する。
本稿では, 微妙な堅牢性違反を識別するための2層シミュレーションに基づく解析フレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-13T16:44:43Z) - Adaptive Online Non-stochastic Control [10.25772015681554]
我々は,制御環境の難易度に比例した政策後悔のアルゴリズムを得る目的で,非確率制御(NSC)の問題に取り組む。
FTRL(Follow The Regularized Leader)フレームワークを、実際に目撃されたコストに比例した正規化子を使用することで、動的システムに調整します。
論文 参考訳(メタデータ) (2023-10-02T12:32:24Z) - Age of Semantics in Cooperative Communications: To Expedite Simulation
Towards Real via Offline Reinforcement Learning [53.18060442931179]
協調リレー通信システムにおける状態更新のセマンティックス更新度を測定するための意味学年代(AoS)を提案する。
オンライン・ディープ・アクター・クリティック(DAC)学習手法を,政治時間差学習の枠組みに基づいて提案する。
そこで我々は,以前に収集したデータセットから最適制御ポリシーを推定する,新しいオフラインDAC方式を提案する。
論文 参考訳(メタデータ) (2022-09-19T11:55:28Z) - COptiDICE: Offline Constrained Reinforcement Learning via Stationary
Distribution Correction Estimation [73.17078343706909]
オフラインの制約付き強化学習(RL)問題。エージェントは、所定のコスト制約を満たしながら期待されるリターンを最大化するポリシーを計算し、事前に収集されたデータセットからのみ学習する。
定常分布空間におけるポリシーを最適化するオフライン制約付きRLアルゴリズムを提案する。
我々のアルゴリズムであるCOptiDICEは、コスト上限を制約しながら、利益に対する最適政策の定常分布補正を直接見積もる。
論文 参考訳(メタデータ) (2022-04-19T15:55:47Z) - Controllable Summarization with Constrained Markov Decision Process [50.04321779376415]
本研究では,ユーザが特定の属性を制御できる可制御テキスト要約について検討する。
制約付きマルコフ決定プロセス(CMDP)に基づく新しいトレーニングフレームワークを提案する。
我々のフレームワークは、長さ、被覆された実体、抽象性など、要約の重要な属性を制御するために応用できる。
論文 参考訳(メタデータ) (2021-08-07T09:12:53Z) - Benchmarks for Deep Off-Policy Evaluation [152.28569758144022]
我々は,政策外の評価のベンチマークに使用できるポリシーの集合を提案する。
私たちのベンチマークの目標は、一連の原則から動機付けられた進歩の標準化された尺度を提供することです。
この領域における今後の研究を促進するために、当社のデータとコードに対するオープンソースアクセスを提供しています。
論文 参考訳(メタデータ) (2021-03-30T18:09:33Z) - The Impact of Data on the Stability of Learning-Based Control- Extended
Version [63.97366815968177]
本稿では,Lyapunovをベースとした,認証制御性能に対するデータの影響の定量化手法を提案する。
ガウス過程を通じて未知系の力学をモデル化することにより、モデルの不確実性と安定性条件の満足度の間の相互関係を決定できる。
論文 参考訳(メタデータ) (2020-11-20T19:10:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。