Fugu-MT 論文翻訳(概要): Enabling risk-aware Reinforcement Learning for medical interventions through uncertainty decomposition

論文の概要: Enabling risk-aware Reinforcement Learning for medical interventions through uncertainty decomposition

arxiv url: http://arxiv.org/abs/2109.07827v1
Date: Thu, 16 Sep 2021 09:36:53 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-17 14:00:57.899350
Title: Enabling risk-aware Reinforcement Learning for medical interventions through uncertainty decomposition
Title（参考訳）: 不確実性分解による医療介入に対するリスク対応強化学習の導入
Authors: Paul Festor, Giulia Luise, Matthieu Komorowski and A. Aldo Faisal
Abstract要約: 複雑な制御と意思決定の問題に対処するためのツールとして強化学習(RL)が登場している。エージェントが学習した明らかに最適なポリシーと、実際の展開の間のギャップを埋めることは、しばしば困難である。本稿では,各不確実性のネット効果を分解して不確かさを再現するために,分布的アプローチ (UA-DQN) を再キャストする方法を提案する。
参考スコア（独自算出の注目度）: 9.208828373290487
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement Learning (RL) is emerging as tool for tackling complex control and decision-making problems. However, in high-risk environments such as healthcare, manufacturing, automotive or aerospace, it is often challenging to bridge the gap between an apparently optimal policy learnt by an agent and its real-world deployment, due to the uncertainties and risk associated with it. Broadly speaking RL agents face two kinds of uncertainty, 1. aleatoric uncertainty, which reflects randomness or noise in the dynamics of the world, and 2. epistemic uncertainty, which reflects the bounded knowledge of the agent due to model limitations and finite amount of information/data the agent has acquired about the world. These two types of uncertainty carry fundamentally different implications for the evaluation of performance and the level of risk or trust. Yet these aleatoric and epistemic uncertainties are generally confounded as standard and even distributional RL is agnostic to this difference. Here we propose how a distributional approach (UA-DQN) can be recast to render uncertainties by decomposing the net effects of each uncertainty. We demonstrate the operation of this method in grid world examples to build intuition and then show a proof of concept application for an RL agent operating as a clinical decision support system in critical care
Abstract（参考訳）: 複雑な制御と意思決定問題を解決するツールとして強化学習(RL)が登場している。しかしながら、医療、製造業、自動車、航空宇宙などのリスクの高い環境では、エージェントが学習した明らかに最適な政策と、それに関連する不確実性やリスクのため、現実の展開とのギャップを埋めることはしばしば困難である。広義のRL剤は2種類の不確実性に直面している。 1.世界の力学における無作為性や騒音を反映する無秩序不確実性 2. 疫学上の不確実性は、モデル上の限界と、エージェントが世界で獲得した情報・データの有限量により、エージェントの知識の境界を反映している。これらの2つの不確実性は、パフォーマンスの評価とリスクや信頼のレベルに根本的に異なる意味を持つ。しかし、これらのアレタリックな不確実性は一般に標準として成り立っており、分布RLでさえこの違いとは無関係である。本稿では,各不確実性のネット効果を分解して不確かさを再現するために,分布的アプローチ (UA-DQN) を再キャストする方法を提案する。本稿では,この手法をグリッド・ワールドの例で実演して直観を構築し,批判的ケアにおける臨床意思決定支援システムとして動作するrlエージェントの概念実証を行った。

関連論文リスト

SAUP: Situation Awareness Uncertainty Propagation on LLM Agent [52.444674213316574]
大規模言語モデル(LLM)は多段階エージェントシステムに統合され、様々なアプリケーションにまたがる複雑な意思決定プロセスを可能にする。既存の不確実性推定手法は主に最終段階の出力に重点を置いており、これは多段階決定プロセスにおける累積的不確実性やエージェントとその環境間の動的相互作用を考慮できない。 LLMエージェントの推論プロセスの各ステップを通じて不確実性を伝播する新しいフレームワークであるSAUPを提案する。
論文参考訳（メタデータ） (2024-12-02T01:31:13Z)
Know Where You're Uncertain When Planning with Multimodal Foundation Models: A Formal Framework [54.40508478482667]
認識と計画生成の不確実性を解消し、定量化し、緩和する包括的枠組みを提案する。本稿では,知覚と意思決定の独特な性質に合わせた手法を提案する。この不確実性分散フレームワークは, 変動率を最大40%削減し, タスク成功率をベースラインに比べて5%向上させることを示した。
論文参考訳（メタデータ） (2024-11-03T17:32:00Z)
Controlling Risk of Retrieval-augmented Generation: A Counterfactual Prompting Framework [77.45983464131977]
我々は、RAGモデルの予測が誤りであり、現実のアプリケーションにおいて制御不能なリスクをもたらす可能性がどの程度あるかに焦点を当てる。本研究は,RAGの予測に影響を及ぼす2つの重要な潜伏要因を明らかにする。我々は,これらの要因をモデルに誘導し,その応答に与える影響を解析する,反実的プロンプトフレームワークを開発した。
論文参考訳（メタデータ） (2024-09-24T14:52:14Z)
Data-Adaptive Tradeoffs among Multiple Risks in Distribution-Free Prediction [55.77015419028725]
しきい値とトレードオフパラメータが適応的に選択された場合、リスクの有効な制御を可能にする手法を開発する。提案手法は単調なリスクとほぼ単調なリスクをサポートするが,それ以外は分布的な仮定はしない。
論文参考訳（メタデータ） (2024-03-28T17:28:06Z)
Auditing Fairness under Unobserved Confounding [56.61738581796362]
リスクファクターがすべて観察されているという仮定を完全に取り除いたり緩和したりしても、ハイリスクな個人に治療率に有意義な限界を与えることができることを示す。既存の意思決定システムの不公平な結果を原則的に評価することができる。
論文参考訳（メタデータ） (2024-03-18T21:09:06Z)
A unified uncertainty-aware exploration: Combining epistemic and aleatory uncertainty [21.139502047972684]
そこで本稿では, リスク感応探索における浮腫性およびてんかん性不確実性の複合効果を定量的に評価するアルゴリズムを提案する。本手法は,パラメータ化された回帰分布を推定する分布RLの新たな拡張の上に構築する。探索課題とリスク課題を伴う課題に対する実験結果から,本手法が代替手法より優れていることが示された。
論文参考訳（メタデータ） (2024-01-05T17:39:00Z)
Capsa: A Unified Framework for Quantifying Risk in Deep Neural Networks [142.67349734180445]
ディープニューラルネットワークにリスク認識を提供する既存のアルゴリズムは複雑でアドホックである。ここでは、リスク認識でモデルを拡張するためのフレームワークであるcapsaを紹介します。
論文参考訳（メタデータ） (2023-08-01T02:07:47Z)
Seeing is not Believing: Robust Reinforcement Learning against Spurious Correlation [57.351098530477124]
国家の異なる部分には、保存されていない共同設立者が引き起こす相関関係が存在しない。このような役に立たないあるいは有害な相関を学習するモデルは、テストケースの共同創設者がトレーニングケースから逸脱したときに破滅的に失敗する可能性がある。したがって、単純かつ非構造的な不確実性集合を仮定する既存の頑健なアルゴリズムは、この問題に対処するには不十分である。
論文参考訳（メタデータ） (2023-07-15T23:53:37Z)
Risk-Sensitive and Robust Model-Based Reinforcement Learning and Planning [2.627046865670577]
我々は、逐次意思決定における計画と強化学習のアプローチに対処する。多くの実世界の領域において、完全に正確なモデルやシミュレータを構築することは不可能である。私たちはモデルベースのアルゴリズムに焦点をあてて、この目標に対して多くのコントリビューションを行います。
論文参考訳（メタデータ） (2023-04-02T16:44:14Z)
One Risk to Rule Them All: A Risk-Sensitive Perspective on Model-Based Offline Reinforcement Learning [25.218430053391884]
両問題に共同で対処するためのメカニズムとしてリスク感受性を提案する。相対的不確実性へのリスク回避は、環境に悪影響を及ぼす可能性のある行動を妨げる。実験の結果,提案アルゴリズムは決定論的ベンチマーク上での競合性能を実現することがわかった。
論文参考訳（メタデータ） (2022-11-30T21:24:11Z)
Disentangling Epistemic and Aleatoric Uncertainty in Reinforcement Learning [35.791555387656956]
絶対的不確実性は、本質的に危険な状態や行動につながる既約環境から生じる。認知的不確実性は、学習中に蓄積された限られた情報から得られる。訓練環境での学習のスピードアップ、同様のテスト環境への一般化の改善、異常なテスト環境での見慣れない振る舞いのフラグ付けには、アレタリックと不確実性を特徴づけることができる。
論文参考訳（メタデータ） (2022-06-03T13:20:16Z)
Ensemble Quantile Networks: Uncertainty-Aware Reinforcement Learning with Applications in Autonomous Driving [1.6758573326215689]
強化学習は、自律運転のための意思決定エージェントを作成するために使用できる。これまでのアプローチではブラックボックスソリューションのみを提供しており、エージェントがその決定に対する自信について情報を提供していない。本稿では,分布RLとアンサンブルアプローチを組み合わせて完全不確実性推定を行うEnsemble Quantile Networks (EQN)法を提案する。
論文参考訳（メタデータ） (2021-05-21T10:36:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。