論文の概要: Optimally Teaching a Linear Behavior Cloning Agent
- arxiv url: http://arxiv.org/abs/2311.15399v1
- Date: Sun, 26 Nov 2023 19:47:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 17:56:50.206283
- Title: Optimally Teaching a Linear Behavior Cloning Agent
- Title(参考訳): 線形行動クローニング剤の最適指導
- Authors: Shubham Kumar Bharti, Stephen Wright, Adish Singla, Xiaojin Zhu
- Abstract要約: 線形行動クローニング(LBC)学習者の最適指導について検討する。
この設定では、教師はLBC学習者に示す状態を選択することができる。
学習者は、証明と整合した無限線型仮説のバージョン空間を維持する。
- 参考スコア(独自算出の注目度): 29.290523215922015
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study optimal teaching of Linear Behavior Cloning (LBC) learners. In this
setup, the teacher can select which states to demonstrate to an LBC learner.
The learner maintains a version space of infinite linear hypotheses consistent
with the demonstration. The goal of the teacher is to teach a realizable target
policy to the learner using minimum number of state demonstrations. This number
is known as the Teaching Dimension(TD). We present a teaching algorithm called
``Teach using Iterative Elimination(TIE)" that achieves instance optimal TD.
However, we also show that finding optimal teaching set computationally is
NP-hard. We further provide an approximation algorithm that guarantees an
approximation ratio of $\log(|A|-1)$ on the teaching dimension. Finally, we
provide experimental results to validate the efficiency and effectiveness of
our algorithm.
- Abstract(参考訳): 線形行動クローニング(LBC)学習者の最適指導について検討する。
この設定では、教師はLBC学習者に示す状態を選択することができる。
学習者は、デモと一致する無限線形仮説のバージョン空間を維持する。
教師の目標は,最小限の州の実演数を用いて,現実的な目標政策を学習者に教えることである。
この数字は「TD」として知られている。
本稿では,インスタンス最適tdを実現する "`teach using iterative elimination(tie)" という指導アルゴリズムを提案する。
しかし、最適学習セットの探索はNPハードであることも示している。
さらに、教示次元に対して$\log(|a|-1)$の近似比を保証する近似アルゴリズムを提供する。
最後に,本アルゴリズムの効率と有効性を検証する実験結果を提供する。
関連論文リスト
- When Babies Teach Babies: Can student knowledge sharing outperform Teacher-Guided Distillation on small datasets? [0.0]
我々は,データ効率のよい言語モデル事前学習の限界を推し進めることを目的として,BabyLMチャレンジに提案する。
重み付き相互学習を二段階最適化問題として定式化することにより、生徒の平等な待遇の限界に対処する。
評価の結果、教師なしの手法は教師が指導する手法と一致したり、超えたりできることがわかった。
論文 参考訳(メタデータ) (2024-11-25T15:25:31Z) - Provably Efficient Infinite-Horizon Average-Reward Reinforcement Learning with Linear Function Approximation [1.8416014644193066]
ベルマン最適条件下で線形マルコフ決定過程(MDP)と線形混合MDPを学習するアルゴリズムを提案する。
線形MDPに対する我々のアルゴリズムは、$widetildemathcalO(d3/2mathrmsp(v*)sqrtT)$ over $T$タイムステップの最もよく知られた後悔の上限を達成する。
線形混合 MDP に対して、我々のアルゴリズムは、$widetildemathcalO(dcdotmathrm) の後悔境界に達する。
論文 参考訳(メタデータ) (2024-09-16T23:13:42Z) - Towards Optimal Learning of Language Models [124.65669486710992]
言語モデル(LM)の最適学習の理論を提案する。
我々は、最適学習過程における力学の性質を明らかにするために、学習法則という定理を導出した。
我々は、LMの最適学習が、LMのスケーリング法則における係数の改善に起因することを実証的に検証した。
論文 参考訳(メタデータ) (2024-02-27T18:52:19Z) - Provably Efficient Representation Learning with Tractable Planning in
Low-Rank POMDP [81.00800920928621]
部分的に観測可能なマルコフ決定過程(POMDP)における表現学習の研究
まず,不確実性(OFU)に直面した最大推定(MLE)と楽観性を組み合わせた復調性POMDPのアルゴリズムを提案する。
次に、このアルゴリズムをより広範な$gamma$-observable POMDPのクラスで機能させる方法を示す。
論文 参考訳(メタデータ) (2023-06-21T16:04:03Z) - Teaching an Active Learner with Contrastive Examples [35.926575235046634]
本研究では,学習者が補助的な教師によって支援される追加のツイストを用いて,能動的学習の課題について検討する。
比較例を適応的に選択する効率的な学習アルゴリズムについて検討する。
2つの問題依存パラメータに基づいてアルゴリズムの性能保証を行う。
論文 参考訳(メタデータ) (2021-10-28T05:00:55Z) - Best-Case Lower Bounds in Online Learning [9.01310450044549]
オンライン学習における研究の多くは、後悔に対する下線上界の研究に焦点を当てている。
本研究では,オンライン凸最適化における最良ケース下界の研究を開始する。
我々はFTRLの線形化バージョンが負の線形後悔を達成できることを示した。
論文 参考訳(メタデータ) (2021-06-23T23:24:38Z) - Distribution Matching for Machine Teaching [64.39292542263286]
機械学習の逆問題である機械学習は、学習者の目標仮説に向けて学習者を操ることを目的としている。
機械教育に関するこれまでの研究は、それらの最良の指導例を見つけるための教育のリスクとコストのバランスに重点を置いていた。
本稿では,分布マッチングに基づく機械教育戦略を提案する。
論文 参考訳(メタデータ) (2021-05-06T09:32:57Z) - Nearly Optimal Regret for Learning Adversarial MDPs with Linear Function
Approximation [92.3161051419884]
我々は、敵対的な報酬と完全な情報フィードバックで有限正方体エピソディックマルコフ決定プロセスのための強化学習を研究します。
我々は、$tildeO(dHsqrtT)$ regretを達成できることを示し、$H$はエピソードの長さである。
また、対数因子までの$tildeOmega(dHsqrtT)$の値が一致することを証明する。
論文 参考訳(メタデータ) (2021-02-17T18:54:08Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z) - Meta-learning with Stochastic Linear Bandits [120.43000970418939]
我々は、よく知られたOFULアルゴリズムの正規化バージョンを実装するバンディットアルゴリズムのクラスを考える。
我々は,タスク数の増加とタスク分散の分散が小さくなると,タスクを個別に学習する上で,我々の戦略が大きな優位性を持つことを理論的および実験的に示す。
論文 参考訳(メタデータ) (2020-05-18T08:41:39Z) - Adaptive Teaching of Temporal Logic Formulas to Learners with
Preferences [44.63937003271641]
時間論理式に対する機械教育について検討する。
ミオピック溶液の徹底的な探索には指数的時間を要する。
パラメトリック線形時間論理式を効率よく教える手法を提案する。
論文 参考訳(メタデータ) (2020-01-27T18:22:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。