論文の概要: Amortized nonmyopic active search via deep imitation learning
- arxiv url: http://arxiv.org/abs/2405.15031v1
- Date: Thu, 23 May 2024 20:10:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 19:07:30.318658
- Title: Amortized nonmyopic active search via deep imitation learning
- Title(参考訳): 深部模倣学習による不死化非筋活動探索
- Authors: Quan Nguyen, Anindya Sarkar, Roman Garnett,
- Abstract要約: アクティブ検索は、希少で価値のあるクラスのメンバを集めることを目標とする、特別なアクティブな学習環境を形式化する。
本稿では,ニューラルネットワークをトレーニングして検索学習を行うことにより,このポリシーの償却について検討する。
我々のネットワークは、合成データに基づいて訓練され、非神秘的な決定をもたらす有益な探索戦略を学習する。
- 参考スコア(独自算出の注目度): 16.037812098340343
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Active search formalizes a specialized active learning setting where the goal is to collect members of a rare, valuable class. The state-of-the-art algorithm approximates the optimal Bayesian policy in a budget-aware manner, and has been shown to achieve impressive empirical performance in previous work. However, even this approximate policy has a superlinear computational complexity with respect to the size of the search problem, rendering its application impractical in large spaces or in real-time systems where decisions must be made quickly. We study the amortization of this policy by training a neural network to learn to search. To circumvent the difficulty of learning from scratch, we appeal to imitation learning techniques to mimic the behavior of the expert, expensive-to-compute policy. Our policy network, trained on synthetic data, learns a beneficial search strategy that yields nonmyopic decisions carefully balancing exploration and exploitation. Extensive experiments demonstrate our policy achieves competitive performance at real-world tasks that closely approximates the expert's at a fraction of the cost, while outperforming cheaper baselines.
- Abstract(参考訳): アクティブ検索は、希少で価値のあるクラスのメンバを集めることを目標とする、特別なアクティブな学習環境を形式化する。
最先端のアルゴリズムは、予算に合った最適なベイズ政策を近似し、以前の研究で印象的な経験的性能を達成することが示されている。
しかし、この近似ポリシーでさえ、探索問題のサイズに関して超線形の計算複雑性を持ち、そのアプリケーションを大規模な空間や意思決定を迅速に行うリアルタイムシステムで非現実的にレンダリングする。
本稿では,ニューラルネットワークをトレーニングして検索学習を行うことにより,このポリシーの償却について検討する。
スクラッチから学ぶことの難しさを回避するため、我々は、専門家の費用対計算ポリシーの振る舞いを模倣する模倣学習技術に訴える。
我々の政策ネットワークは、合成データに基づいて訓練され、探索と搾取のバランスを慎重に調整する非神秘的決定をもたらす有益な探索戦略を学習する。
大規模な実験は、我々の政策が現実のタスクにおける競争性能を実証し、専門家のコストをわずかに近似すると同時に、より安価なベースラインを上回ります。
関連論文リスト
- RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Compute-Efficient Deep Learning: Algorithmic Trends and Opportunities [18.508401650991434]
ニューラルネットワークのトレーニングの経済的および環境的コストは、持続不可能になりつつある。
*アルゴリズム的に効率のよいディープラーニングの研究*は、トレーニングプログラムの意味論の変化を通じて、トレーニングコストを削減しようとしている。
アルゴリズム的に効率的な学習の基本的な構成要素を用いて分類学を開発する。
論文 参考訳(メタデータ) (2022-10-13T00:40:04Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Nonmyopic Multifidelity Active Search [15.689830609697685]
本稿では,多要素能動探索のモデルと,この設定のための新しい,計算効率の良いポリシーを提案する。
実世界のデータセット上でのソリューションの性能を評価し,自然ベンチマークよりもはるかに優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-11T12:55:51Z) - Reinforcement Learning with Efficient Active Feature Acquisition [59.91808801541007]
実生活では、情報取得は患者の医療検査に該当する可能性がある。
本稿では,アクティブな特徴獲得ポリシーを学習するモデルに基づく強化学習フレームワークを提案する。
この成功の鍵は、部分的に観察された状態から高品質な表現を学ぶ新しい逐次変分自動エンコーダである。
論文 参考訳(メタデータ) (2020-11-02T08:46:27Z) - Reannealing of Decaying Exploration Based On Heuristic Measure in Deep
Q-Network [82.20059754270302]
本稿では,再熱処理の概念に基づくアルゴリズムを提案し,必要なときにのみ探索を促進することを目的とする。
我々は、訓練を加速し、より良い政策を得る可能性を示す実証的なケーススタディを実施している。
論文 参考訳(メタデータ) (2020-09-29T20:40:00Z) - Adversarial Imitation Learning via Random Search [15.475463516901938]
単純な線形ポリシーを用いた微分自由最適化を利用した模倣学習手法を提案する。
本稿では,環境からの直接的な報奨信号を持たないモデルを用いて,MuJoCoの移動タスクにおいて,競合性能が得られることを示す。
論文 参考訳(メタデータ) (2020-08-21T12:40:03Z) - Learning Adaptive Exploration Strategies in Dynamic Environments Through
Informed Policy Regularization [100.72335252255989]
本研究では,動的環境に効果的に適応する探索探索探索戦略の課題について検討する。
本稿では,各タスクにおける報酬を最大化するために訓練された情報ポリシを用いて,RNNベースのポリシーのトレーニングを規則化する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-06T16:14:48Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。