論文の概要: Active Imitation Learning with Noisy Guidance
- arxiv url: http://arxiv.org/abs/2005.12801v1
- Date: Tue, 26 May 2020 15:35:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 23:22:32.483141
- Title: Active Imitation Learning with Noisy Guidance
- Title(参考訳): 雑音誘導によるアクティブ模倣学習
- Authors: Kiant\'e Brantley, Amr Sharaf, Hal Daum\'e III
- Abstract要約: シミュレーション学習アルゴリズムは、多くの構造化予測タスクに対して最先端の結果を提供する。
このようなアルゴリズムは、任意のクエリ状態において最適なアクションを提供する専門家へのトレーニングタイムアクセスを前提としている。
我々は,学習アルゴリズムがノイズの多いガイダンスを提供するより安価なノイズにアクセスできるような,アクティブな学習環境を考える。
- 参考スコア(独自算出の注目度): 6.832341432995627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imitation learning algorithms provide state-of-the-art results on many
structured prediction tasks by learning near-optimal search policies. Such
algorithms assume training-time access to an expert that can provide the
optimal action at any queried state; unfortunately, the number of such queries
is often prohibitive, frequently rendering these approaches impractical. To
combat this query complexity, we consider an active learning setting in which
the learning algorithm has additional access to a much cheaper noisy heuristic
that provides noisy guidance. Our algorithm, LEAQI, learns a difference
classifier that predicts when the expert is likely to disagree with the
heuristic, and queries the expert only when necessary. We apply LEAQI to three
sequence labeling tasks, demonstrating significantly fewer queries to the
expert and comparable (or better) accuracies over a passive approach.
- Abstract(参考訳): 模倣学習アルゴリズムは、最適に近い検索ポリシーを学習することで、多くの構造化予測タスクの最先端の結果を提供する。
このようなアルゴリズムは、任意のクエリ状態において最適なアクションを提供する専門家へのトレーニングタイムアクセスを前提としています。
この問合せの複雑さに対処するために,学習アルゴリズムがより安価でノイズの多いヒューリスティックにアクセスでき,ノイズの多いガイダンスを提供する能動的学習環境を考える。
我々のアルゴリズムであるLEAQIは、専門家がヒューリスティックと不一致する確率を予測する差分分類器を学習し、必要に応じて専門家に問い合わせる。
我々は3つのシーケンスラベリングタスクにLEAQIを適用し、エキスパートに対するクエリが著しく少なく、受動的アプローチに対して同等(あるいはより優れた)精度を示す。
関連論文リスト
- Selective Sampling and Imitation Learning via Online Regression [17.73844193143454]
雑音の多い専門家にフィードバックを求めることで,Imitation Learning (IL) の問題を考える。
我々は、選択的サンプリングを用いて、ノイズの多い専門家にフィードバックを積極的に問い合わせる、ILのための対話的アルゴリズムを提供する。
論文 参考訳(メタデータ) (2023-07-11T03:32:20Z) - Interpretable Anomaly Detection via Discrete Optimization [1.7150329136228712]
本稿では,シーケンシャルデータから本質的に解釈可能な異常検出を学習するためのフレームワークを提案する。
この問題は計算的に困難であることを示し,制約最適化に基づく2つの学習アルゴリズムを開発した。
プロトタイプ実装を用いて,提案手法は精度とF1スコアの点で有望な結果を示す。
論文 参考訳(メタデータ) (2023-03-24T16:19:15Z) - Non-Clairvoyant Scheduling with Predictions Revisited [77.86290991564829]
非論理的スケジューリングでは、優先度不明な処理条件でジョブをスケジューリングするためのオンライン戦略を見つけることが課題である。
我々はこのよく研究された問題を、アルゴリズム設計に(信頼できない)予測を統合する、最近人気の高い学習強化された設定で再検討する。
これらの予測には所望の特性があり, 高い性能保証を有するアルゴリズムと同様に, 自然な誤差測定が可能であることを示す。
論文 参考訳(メタデータ) (2022-02-21T13:18:11Z) - Machine Learning for Online Algorithm Selection under Censored Feedback [71.6879432974126]
オンラインアルゴリズム選択(OAS)では、アルゴリズム問題クラスのインスタンスがエージェントに次々に提示され、エージェントは、固定された候補アルゴリズムセットから、おそらく最高のアルゴリズムを迅速に選択する必要がある。
SAT(Satisfiability)のような決定問題に対して、品質は一般的にアルゴリズムのランタイムを指す。
本研究では,OASのマルチアームバンディットアルゴリズムを再検討し,この問題に対処する能力について議論する。
ランタイム指向の損失に適応し、時間的地平線に依存しない空間的・時間的複雑さを維持しながら、部分的に検閲されたデータを可能にする。
論文 参考訳(メタデータ) (2021-09-13T18:10:52Z) - Low-Regret Active learning [64.36270166907788]
トレーニングに最も有用なラベル付きデータポイントを識別するオンライン学習アルゴリズムを開発した。
私たちの仕事の中心は、予測可能な(簡単な)インスタンスの低い後悔を達成するために調整された睡眠専門家のための効率的なアルゴリズムです。
論文 参考訳(メタデータ) (2021-04-06T22:53:45Z) - Learning Halfspaces With Membership Queries [0.0]
アクティブな学習は、アルゴリズムが見る必要があるサンプルの数で指数関数的な増加をもたらすこともある。
このアルゴリズムは実際にうまく動作し,不確実性サンプリングを著しく上回っている。
論文 参考訳(メタデータ) (2020-12-20T18:02:47Z) - Learning to Actively Learn: A Robust Approach [22.75298609290053]
本研究では,アクティブラーニングや純粋探索型マルチアームバンディットといった適応データ収集タスクのアルゴリズム設計手法を提案する。
我々の適応アルゴリズムは、情報理論の下界から導かれる問題の同値クラスに対する逆学習によって学習される。
我々は,訓練手順の安定性と有効性を正当化するための合成実験を行い,実データから導出される課題について評価する。
論文 参考訳(メタデータ) (2020-10-29T06:48:22Z) - Instance-Dependent Complexity of Contextual Bandits and Reinforcement
Learning: A Disagreement-Based Perspective [104.67295710363679]
古典的なマルチアームバンディット問題において、インスタンス依存アルゴリズムは、ベストとセカンドベストのアーム間のギャップで「容易」な問題のパフォーマンスを向上させる。
我々は、インスタンス依存の後悔境界を得るのに十分かつ必要である複雑性尺度のファミリーを導入する。
次に、可能な限りギャップに適応する新しいオラクル効率アルゴリズムを導入し、最悪の場合にはミニマックスレートを得る。
論文 参考訳(メタデータ) (2020-10-07T01:33:06Z) - Run2Survive: A Decision-theoretic Approach to Algorithm Selection based
on Survival Analysis [75.64261155172856]
生存分析(SA)は、自然に検閲されたデータをサポートし、アルゴリズムランタイムの分散モデルを学習するためにそのようなデータを使用する適切な方法を提供する。
我々は、アルゴリズム選択に対する洗練された決定論的アプローチの基礎として、そのようなモデルを活用し、Run2Surviveを疑う。
標準ベンチマークASlibによる広範な実験では、我々のアプローチは競争力が高く、多くの場合、最先端のASアプローチよりも優れていることが示されている。
論文 参考訳(メタデータ) (2020-07-06T15:20:17Z) - Beyond Worst-Case Analysis in Stochastic Approximation: Moment
Estimation Improves Instance Complexity [58.70807593332932]
近似問題に対する勾配に基づく手法のオラクル複雑性について検討する。
最悪のケースの複雑さではなく、インスタンス依存の複雑さに焦点を当てます。
提案アルゴリズムとその解析はモーメント推定の成功を理論的に正当化する。
論文 参考訳(メタデータ) (2020-06-08T09:25:47Z) - Cyclic Boosting -- an explainable supervised machine learning algorithm [0.0]
本稿では,新しい機械学習アルゴリズム"Cyclic Boosting"を提案する。
正確な回帰と分類のタスクを効率的に行うと同時に、個々の予測がどのように行われたかの詳細な理解を可能にします。
論文 参考訳(メタデータ) (2020-02-09T18:52:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。