論文の概要: Reinforcement Learning with Efficient Active Feature Acquisition
- arxiv url: http://arxiv.org/abs/2011.00825v1
- Date: Mon, 2 Nov 2020 08:46:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 11:03:25.709637
- Title: Reinforcement Learning with Efficient Active Feature Acquisition
- Title(参考訳): 能動的特徴獲得による強化学習
- Authors: Haiyan Yin and Yingzhen Li and Sinno Jialin Pan and Cheng Zhang and
Sebastian Tschiatschek
- Abstract要約: 実生活では、情報取得は患者の医療検査に該当する可能性がある。
本稿では,アクティブな特徴獲得ポリシーを学習するモデルに基づく強化学習フレームワークを提案する。
この成功の鍵は、部分的に観察された状態から高品質な表現を学ぶ新しい逐次変分自動エンコーダである。
- 参考スコア(独自算出の注目度): 59.91808801541007
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Solving real-life sequential decision making problems under partial
observability involves an exploration-exploitation problem. To be successful,
an agent needs to efficiently gather valuable information about the state of
the world for making rewarding decisions. However, in real-life, acquiring
valuable information is often highly costly, e.g., in the medical domain,
information acquisition might correspond to performing a medical test on a
patient. This poses a significant challenge for the agent to perform optimally
for the task while reducing the cost for information acquisition. In this
paper, we propose a model-based reinforcement learning framework that learns an
active feature acquisition policy to solve the exploration-exploitation problem
during its execution. Key to the success is a novel sequential variational
auto-encoder that learns high-quality representations from partially observed
states, which are then used by the policy to maximize the task reward in a cost
efficient manner. We demonstrate the efficacy of our proposed framework in a
control domain as well as using a medical simulator. In both tasks, our
proposed method outperforms conventional baselines and results in policies with
greater cost efficiency.
- Abstract(参考訳): 部分観測可能性の下で、実生活におけるシーケンシャルな意思決定問題を解決するには、探索・探索の問題が伴う。
成功させるためには、エージェントは報酬決定を行うために、世界の状況に関する貴重な情報を効率的に収集する必要がある。
しかし、実生活では、価値ある情報を得ることは、しばしば高いコストがかかる。例えば、医療領域では、情報取得は、患者に対して医療検査を行うことに相当する可能性がある。
これはエージェントが情報取得のコストを削減しつつタスクを最適に実行する上で大きな課題となる。
本稿では,その実行時の探索・探索問題を解決するために,能動的特徴獲得ポリシーを学習するモデルベース強化学習フレームワークを提案する。
成功の鍵となるのは、部分的に観察された状態から高品質な表現を学習する、新しいシーケンシャルな変分自動エンコーダである。
本稿では, 医療シミュレータを用いて, 制御領域における提案フレームワークの有効性を実証する。
どちらのタスクにおいても,提案手法は従来のベースラインを上回っており,コスト効率の高いポリシーとなる。
関連論文リスト
- Uncertainty of Thoughts: Uncertainty-Aware Planning Enhances Information
Seeking in Large Language Models [76.56588769677835]
Uncertainty of Thoughts (UoT) は、大きな言語モデルを拡張するアルゴリズムであり、効果的な質問をすることで積極的に情報を求めることができる。
医療診断、トラブルシューティング、そして'20 Questions'ゲームの実験において、UoTは57.8%の性能向上を達成している。
論文 参考訳(メタデータ) (2024-02-05T18:28:44Z) - Learning to Rank for Active Learning via Multi-Task Bilevel Optimization [29.207101107965563]
データ取得のための学習代理モデルを用いて、ラベルのないインスタンスのバッチを選択することを目的とした、アクティブな学習のための新しいアプローチを提案する。
このアプローチにおける重要な課題は、ユーティリティ関数の入力の一部を構成するデータの歴史が時間とともに増大するにつれて、よく一般化する取得関数を開発することである。
論文 参考訳(メタデータ) (2023-10-25T22:50:09Z) - Pruning the Way to Reliable Policies: A Multi-Objective Deep Q-Learning
Approach to Critical Care [68.8204255655161]
我々は、より信頼性の高いクリティカルケアポリシーを得ることができる深いQ-ラーニングアプローチを導入する。
まず、利用可能なすべての報酬に基づいてアクションセットを抽出し、次に、スパース主報酬に基づいて最終モデルを訓練し、制限されたアクションセットで達成する。
論文 参考訳(メタデータ) (2023-06-13T18:02:57Z) - Demonstration-Guided Reinforcement Learning with Efficient Exploration
for Task Automation of Surgical Robot [54.80144694888735]
効率的な強化学習アルゴリズムであるDEX(Demonstration-Guided Exploration)を導入する。
本手法は,生産的相互作用を促進するために,高い値で専門家のような行動を推定する。
総合的な手術シミュレーションプラットフォームであるSurRoLによる10ドルの手術操作に関する実験では、大幅な改善が示されている。
論文 参考訳(メタデータ) (2023-02-20T05:38:54Z) - Learning from Guided Play: A Scheduled Hierarchical Approach for
Improving Exploration in Adversarial Imitation Learning [7.51557557629519]
本稿では,主課題,複数の補助課題に加えて,専門家による実演を活用するためのフレームワークであるLearning from Guided Play (LfGP)を紹介する。
主なタスクに対する学習効率は、ボトルネック遷移に挑戦して改善され、専門家データがタスク間で再利用可能になり、学習した補助タスクモデルの再利用を通じて学習を移行することが可能になります。
論文 参考訳(メタデータ) (2021-12-16T14:58:08Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Coverage as a Principle for Discovering Transferable Behavior in
Reinforcement Learning [16.12658895065585]
私たちは、表現だけでは挑戦的な領域での効率的な転送には不十分であり、行動を通じて知識を伝達する方法を探ります。
事前訓練された政策の行動は、手作業(探索)の問題解決や、問題(探索)の解決に有用なデータ収集に利用することができる。
論文 参考訳(メタデータ) (2021-02-24T16:51:02Z) - Cost-effective Variational Active Entity Resolution [4.238343046459798]
我々は,人間の関与コストを削減するために,ディープオートエンコーダが付与するロバスト性に基づくエンティティ解決手法を考案した。
具体的には、教師なし表現学習を行うことにより、ディープ・エンティティ・リゾリューション・モデルのトレーニングコストを削減する。
最後に,ディープ・オートエンコーダの利用によって与えられる特性に基づくアクティブ・ラーニング・アプローチにより,トレーニングデータのラベル付けコストを削減した。
論文 参考訳(メタデータ) (2020-11-20T13:47:11Z) - Cost-Sensitive Portfolio Selection via Deep Reinforcement Learning [100.73223416589596]
深層強化学習を用いたコスト依存型ポートフォリオ選択手法を提案する。
具体的には、価格系列パターンと資産相関の両方を抽出するために、新しい2ストリームポートフォリオポリシーネットワークを考案した。
蓄積したリターンを最大化し、強化学習によるコストの両立を抑えるため、新たなコスト感受性報酬関数が開発された。
論文 参考訳(メタデータ) (2020-03-06T06:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。