論文の概要: Exploring Viable Algorithmic Options for Learning from Demonstration
(LfD): A Parameterized Complexity Approach
- arxiv url: http://arxiv.org/abs/2205.04989v1
- Date: Tue, 10 May 2022 15:54:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-14 12:19:50.007508
- Title: Exploring Viable Algorithmic Options for Learning from Demonstration
(LfD): A Parameterized Complexity Approach
- Title(参考訳): 実証(LfD)からの学習のための生存可能なアルゴリズムオプションの探索 : パラメータ化複雑度アプローチ
- Authors: Todd Wareham
- Abstract要約: 本稿では,パラメータ化複雑性解析を用いて,アルゴリズムの選択肢を体系的に探索する方法を示す。
環境、実演、ポリシーに対する多くの(しばしば同時に)制限に対して、我々の問題は、一般的にも、あるいは相対的に、効率的に解決できないことを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The key to reconciling the polynomial-time intractability of many machine
learning tasks in the worst case with the surprising solvability of these tasks
by heuristic algorithms in practice seems to be exploiting restrictions on
real-world data sets. One approach to investigating such restrictions is to
analyze why heuristics perform well under restrictions. A complementary
approach would be to systematically determine under which sets of restrictions
efficient and reliable machine learning algorithms do and do not exist. In this
paper, we show how such a systematic exploration of algorithmic options can be
done using parameterized complexity analysis, As an illustrative example, we
give the first parameterized complexity analysis of batch and incremental
policy inference under Learning from Demonstration (LfD). Relative to a basic
model of LfD, we show that none of our problems can be solved efficiently
either in general or relative to a number of (often simultaneous) restrictions
on environments, demonstrations, and policies. We also give the first known
restrictions under which efficient solvability is possible and discuss the
implications of our solvability and unsolvability results for both our basic
model of LfD and more complex models of LfD used in practice.
- Abstract(参考訳): 最悪の場合、ヒューリスティックアルゴリズムによるこれらのタスクの驚くほどの解決性に対して、多くの機械学習タスクの多項式時間イントラクタビリティを調整するための鍵は、現実のデータセットに対する制限を悪用しているようだ。
このような制限を調査する1つのアプローチは、なぜヒューリスティックが制限下でうまく機能するのかを分析することである。
補完的なアプローチは、制約の集合が効率的で信頼性の高い機械学習アルゴリズムが存在するかどうかを体系的に決定することである。
本稿では、パラメータ化複雑性分析を用いて、このようなアルゴリズムの体系的な探索をいかに行うかを示す。 図示的な例として、バッチのパラメータ化複雑性分析と、学習からデモンストレーション(LfD)を基礎とした漸進的なポリシー推論について、最初のパラメータ化複雑性解析を行う。
LfDの基本モデルとは対照的に、環境、デモンストレーション、ポリシーに関する多くの(しばしば同時)制限に対して、我々の問題は、一般にも相対的にも効率的には解決できない。
また, 効率的な可解性を実現するための制約を初めて提示し, lfdの基本モデルとより複雑なlfdモデルの両方について, 可解性および不解性結果の意義について考察した。
関連論文リスト
- EVOLvE: Evaluating and Optimizing LLMs For Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。
多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。
最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-08T17:54:03Z) - Limits and Powers of Koopman Learning [0.0]
力学系は様々な科学にまたがって複雑で変化する振る舞いを研究する包括的方法を提供する。
クープマン作用素は、線形手法を用いた非線形力学の研究を可能にするため、支配的なアプローチとして現れてきた。
テキスト 動的システムの軌道データからクープマン作用素のスペクトル特性を頑健に学習することは可能か?
論文 参考訳(メタデータ) (2024-07-08T18:24:48Z) - A General Framework for Learning from Weak Supervision [93.89870459388185]
本稿では、新しいアルゴリズムを用いて、弱監督(GLWS)から学習するための一般的な枠組みを紹介する。
GLWSの中心は期待最大化(EM)の定式化であり、様々な弱い監督源を順応的に収容している。
また,EM計算要求を大幅に単純化する高度なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-02T21:48:50Z) - Efficient Model-Free Exploration in Low-Rank MDPs [76.87340323826945]
低ランクマルコフ決定プロセスは、関数近似を持つRLに対して単純だが表現力のあるフレームワークを提供する。
既存のアルゴリズムは、(1)計算的に抽出可能であるか、または(2)制限的な統計的仮定に依存している。
提案手法は,低ランクMPPの探索のための最初の実証可能なサンプル効率アルゴリズムである。
論文 参考訳(メタデータ) (2023-07-08T15:41:48Z) - Representation Learning with Multi-Step Inverse Kinematics: An Efficient
and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。
所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。
我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文 参考訳(メタデータ) (2023-04-12T14:51:47Z) - Interpretable Anomaly Detection via Discrete Optimization [1.7150329136228712]
本稿では,シーケンシャルデータから本質的に解釈可能な異常検出を学習するためのフレームワークを提案する。
この問題は計算的に困難であることを示し,制約最適化に基づく2つの学習アルゴリズムを開発した。
プロトタイプ実装を用いて,提案手法は精度とF1スコアの点で有望な結果を示す。
論文 参考訳(メタデータ) (2023-03-24T16:19:15Z) - Task-Guided IRL in POMDPs that Scales [22.594913269327353]
逆線形強化学習(IRL)では、学習エージェントは、専門家のデモンストレーションを用いて、基礎となるタスクをコードする報酬関数を推論する。
ほとんどのIRL技術は、POMDPの計算前方問題(報酬関数を与えられた最適ポリシーを計算)を必要とする。
我々は,データ効率を向上しながら,情報量を削減するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-12-30T21:08:57Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Efficient lifting of symmetry breaking constraints for complex
combinatorial problems [9.156939957189502]
この作業は、Answer Set Programmingのためのモデルベースのアプローチの学習フレームワークと実装を拡張します。
Inductive Logic Programming System ILASPに新たなコンフリクト解析アルゴリズムを組み込む。
論文 参考訳(メタデータ) (2022-05-14T20:42:13Z) - Adaptive Discretization in Online Reinforcement Learning [9.560980936110234]
離散化に基づくアルゴリズムを設計する際の2つの大きな疑問は、離散化をどのように生成し、いつそれを洗練するかである。
オンライン強化学習のための木に基づく階層分割手法の統一的理論的解析を行う。
我々のアルゴリズムは操作制約に容易に適応し、我々の理論は3つの面のそれぞれに明示的な境界を与える。
論文 参考訳(メタデータ) (2021-10-29T15:06:15Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。