論文の概要: Exploring Viable Algorithmic Options for Learning from Demonstration
(LfD): A Parameterized Complexity Approach
- arxiv url: http://arxiv.org/abs/2205.04989v1
- Date: Tue, 10 May 2022 15:54:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-14 12:19:50.007508
- Title: Exploring Viable Algorithmic Options for Learning from Demonstration
(LfD): A Parameterized Complexity Approach
- Title(参考訳): 実証(LfD)からの学習のための生存可能なアルゴリズムオプションの探索 : パラメータ化複雑度アプローチ
- Authors: Todd Wareham
- Abstract要約: 本稿では,パラメータ化複雑性解析を用いて,アルゴリズムの選択肢を体系的に探索する方法を示す。
環境、実演、ポリシーに対する多くの(しばしば同時に)制限に対して、我々の問題は、一般的にも、あるいは相対的に、効率的に解決できないことを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The key to reconciling the polynomial-time intractability of many machine
learning tasks in the worst case with the surprising solvability of these tasks
by heuristic algorithms in practice seems to be exploiting restrictions on
real-world data sets. One approach to investigating such restrictions is to
analyze why heuristics perform well under restrictions. A complementary
approach would be to systematically determine under which sets of restrictions
efficient and reliable machine learning algorithms do and do not exist. In this
paper, we show how such a systematic exploration of algorithmic options can be
done using parameterized complexity analysis, As an illustrative example, we
give the first parameterized complexity analysis of batch and incremental
policy inference under Learning from Demonstration (LfD). Relative to a basic
model of LfD, we show that none of our problems can be solved efficiently
either in general or relative to a number of (often simultaneous) restrictions
on environments, demonstrations, and policies. We also give the first known
restrictions under which efficient solvability is possible and discuss the
implications of our solvability and unsolvability results for both our basic
model of LfD and more complex models of LfD used in practice.
- Abstract(参考訳): 最悪の場合、ヒューリスティックアルゴリズムによるこれらのタスクの驚くほどの解決性に対して、多くの機械学習タスクの多項式時間イントラクタビリティを調整するための鍵は、現実のデータセットに対する制限を悪用しているようだ。
このような制限を調査する1つのアプローチは、なぜヒューリスティックが制限下でうまく機能するのかを分析することである。
補完的なアプローチは、制約の集合が効率的で信頼性の高い機械学習アルゴリズムが存在するかどうかを体系的に決定することである。
本稿では、パラメータ化複雑性分析を用いて、このようなアルゴリズムの体系的な探索をいかに行うかを示す。 図示的な例として、バッチのパラメータ化複雑性分析と、学習からデモンストレーション(LfD)を基礎とした漸進的なポリシー推論について、最初のパラメータ化複雑性解析を行う。
LfDの基本モデルとは対照的に、環境、デモンストレーション、ポリシーに関する多くの(しばしば同時)制限に対して、我々の問題は、一般にも相対的にも効率的には解決できない。
また, 効率的な可解性を実現するための制約を初めて提示し, lfdの基本モデルとより複雑なlfdモデルの両方について, 可解性および不解性結果の意義について考察した。
関連論文リスト
- Efficient lifting of symmetry breaking constraints for complex
combinatorial problems [9.156939957189502]
この作業は、Answer Set Programmingのためのモデルベースのアプローチの学習フレームワークと実装を拡張します。
Inductive Logic Programming System ILASPに新たなコンフリクト解析アルゴリズムを組み込む。
論文 参考訳(メタデータ) (2022-05-14T20:42:13Z) - Preliminary Results on Using Abstract AND-OR Graphs for Generalized
Solving of Stochastic Shortest Path Problems [25.152899734616298]
最短経路問題(SSP)は、現実世界におけるゴール指向の問題である。
SSPの計算における重要な課題は、適度な大きさの問題を難解に解決する方法を見つけることである。
提案手法は任意のSSPソルバに組み込んで階層的最適ポリシーを計算可能であることを示す。
論文 参考訳(メタデータ) (2022-04-08T21:30:47Z) - Learning Proximal Operators to Discover Multiple Optima [66.98045013486794]
非家族問題における近位演算子を学習するためのエンドツーエンド手法を提案する。
本手法は,弱い目的と穏やかな条件下では,世界規模で収束することを示す。
論文 参考訳(メタデータ) (2022-01-28T05:53:28Z) - Instance-Dependent Confidence and Early Stopping for Reinforcement
Learning [99.57168572237421]
強化学習(RL)のための様々なアルゴリズムは、その収束率の劇的な変動を問題構造の関数として示している。
この研究は、観察されたパフォーマンスの違いについて、textitexを説明する保証を提供する。
次の自然なステップは、これらの理論的保証を実際に有用なガイドラインに変換することです。
論文 参考訳(メタデータ) (2022-01-21T04:25:35Z) - Efficient Performance Bounds for Primal-Dual Reinforcement Learning from
Demonstrations [1.0609815608017066]
本稿では,コスト関数の不明な大規模マルコフ決定プロセスについて考察し,限られた専門家による実証から政策を学習する問題に対処する。
既存の逆強化学習法には強力な理論的保証があるが、計算上は高価である。
ラグランジアン双対性を利用して理論と実践のギャップを埋める新しい双線型サドルポイントフレームワークを導入する。
論文 参考訳(メタデータ) (2021-12-28T05:47:24Z) - The Statistical Complexity of Interactive Decision Making [134.75192655810525]
複雑度尺度であるDecision-Estimation Coefficientは,サンプル効率のインタラクティブ学習に必要かつ十分であることが証明された。
統合アルゴリズム設計原則であるE2Dは、教師付き推定のための任意のアルゴリズムを、意思決定のためのオンラインアルゴリズムに変換する。
強化学習設定に適用すると、決定推定係数は基本的に既存のすべての硬度結果と下限を回復する。
論文 参考訳(メタデータ) (2021-12-27T02:53:44Z) - Reinforcement Learning based Sequential Batch-sampling for Bayesian
Optimal Experimental Design [1.6249267147413522]
実験の逐次設計(SDOE)は,近年,有望な結果をもたらす手法として人気がある。
本研究では、SDOE戦略を拡張し、実験やコンピュータコードに一連の入力で問い合わせる。
提案手法のユニークな機能は、複数のタスクに適用できる能力である。
論文 参考訳(メタデータ) (2021-12-21T02:25:23Z) - Adaptive Discretization in Online Reinforcement Learning [9.560980936110234]
離散化に基づくアルゴリズムを設計する際の2つの大きな疑問は、離散化をどのように生成し、いつそれを洗練するかである。
オンライン強化学習のための木に基づく階層分割手法の統一的理論的解析を行う。
我々のアルゴリズムは操作制約に容易に適応し、我々の理論は3つの面のそれぞれに明示的な境界を与える。
論文 参考訳(メタデータ) (2021-10-29T15:06:15Z) - Generalization of Neural Combinatorial Solvers Through the Lens of
Adversarial Robustness [68.97830259849086]
ほとんどのデータセットは単純なサブプロブレムのみをキャプチャし、おそらくは突発的な特徴に悩まされる。
本研究では, 局所的な一般化特性である対向ロバスト性について検討し, 厳密でモデル固有な例と突発的な特徴を明らかにする。
他のアプリケーションとは異なり、摂動モデルは知覚できないという主観的な概念に基づいて設計されているため、摂動モデルは効率的かつ健全である。
驚くべきことに、そのような摂動によって、十分に表現力のあるニューラルソルバは、教師あり学習で共通する正確さと悪質さのトレードオフの限界に悩まされない。
論文 参考訳(メタデータ) (2021-10-21T07:28:11Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Constrained Learning with Non-Convex Losses [119.8736858597118]
学習は現代の情報処理の中核技術になっているが、バイアス、安全でない、偏見のあるソリューションにつながるという証拠はたくさんある。
論文 参考訳(メタデータ) (2021-03-08T23:10:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。