論文の概要: Interactive Learning from Activity Description
- arxiv url: http://arxiv.org/abs/2102.07024v1
- Date: Sat, 13 Feb 2021 22:51:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-17 19:33:30.145001
- Title: Interactive Learning from Activity Description
- Title(参考訳): アクティビティ記述からのインタラクティブ学習
- Authors: Khanh Nguyen, Dipendra Misra, Robert Schapire, Miro Dud\'ik, Patrick
Shafto
- Abstract要約: 本稿では,要求充足エージェントを言語的に記述することで,要求充足エージェントの訓練を可能にする対話型学習プロトコルを提案する。
我々のプロトコルは、模倣学習(IL)や強化学習(RL)といった従来のアルゴリズムと相補的な優位性を提供する対話型学習アルゴリズムの新しいファミリーを生み出している。
我々は,このプロトコルを実践的に実装し,純粋に言語記述フィードバックを用いた2つの要求充足問題をエージェントに訓練するアルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 11.068923430996575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel interactive learning protocol that enables training
request-fulfilling agents by verbally describing their activities. Our protocol
gives rise to a new family of interactive learning algorithms that offer
complementary advantages against traditional algorithms like imitation learning
(IL) and reinforcement learning (RL). We develop an algorithm that practically
implements this protocol and employ it to train agents in two challenging
request-fulfilling problems using purely language-description feedback.
Empirical results demonstrate the strengths of our algorithm: compared to RL
baselines, it is more sample-efficient; compared to IL baselines, it achieves
competitive success rates while not requiring feedback providers to have
agent-specific expertise. We also provide theoretical guarantees of the
algorithm under certain assumptions on the teacher and the environment.
- Abstract(参考訳): 本稿では,要求充足エージェントを言語的に記述することで,要求充足エージェントの訓練を可能にする対話型学習プロトコルを提案する。
我々のプロトコルは、模倣学習(IL)や強化学習(RL)といった従来のアルゴリズムと相補的な利点を提供する対話型学習アルゴリズムの新たなファミリーを生み出します。
我々は,このプロトコルを実践的に実装し,純粋に言語記述フィードバックを用いた2つの要求充足問題をエージェントに訓練するアルゴリズムを開発した。
RLベースラインと比較してサンプル効率が良く,ILベースラインと比較して,フィードバックプロバイダにエージェント固有の専門知識を必要とせず,競争的な成功率を達成した。
また,教師と環境に対する一定の仮定の下でのアルゴリズムの理論的保証も提供する。
関連論文リスト
- Enabling Real-Time Conversations with Minimal Training Costs [61.80370154101649]
本稿では,2つの言語モデルに対して,最小限の訓練を要し,2つの言語能力を持つ新しい重複復号法を提案する。
実験結果から,本手法はトレーニングコストの最小化とともに,ユーザとAIのインタラクションの自然性と人間的類似性を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-09-18T06:27:26Z) - Neural Active Learning Beyond Bandits [69.99592173038903]
ストリームベースとプールベースの両方のアクティブラーニングをニューラルネットワーク近似を用いて検討する。
ストリームベースおよびプールベースアクティブラーニングのためのニューラルネットワークを新たに設計したエクスプロイトと探索に基づく2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-18T21:52:14Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Inapplicable Actions Learning for Knowledge Transfer in Reinforcement
Learning [3.194414753332705]
学習不能な動作はRLアルゴリズムのサンプル効率を大幅に向上させることを示す。
得られた知識の伝達性のおかげで、学習プロセスをより効率的にするために、他のタスクやドメインで再利用することができる。
論文 参考訳(メタデータ) (2022-11-28T17:45:39Z) - Batch Active Learning from the Perspective of Sparse Approximation [12.51958241746014]
アクティブな学習は、機械学習エージェントと人間のアノテーションとのインタラクションを活用することで、効率的なモデルトレーニングを可能にする。
スパース近似の観点からバッチアクティブラーニングを定式化する新しいフレームワークを提案し,提案する。
我々のアクティブラーニング手法は、ラベルのないデータプールから、対応するトレーニング損失関数が、そのフルデータプールに近似するように、情報的サブセットを見つけることを目的としている。
論文 参考訳(メタデータ) (2022-11-01T03:20:28Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている
我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。
オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-29T17:29:08Z) - Feedback Coding for Active Learning [15.239252118069762]
アクティブなサンプル選択タスクに最適なトランスポートベースのフィードバックコーディングスキームを開発しています。
各種データセット上でAPMを評価し,既存のアクティブラーニング手法に匹敵する学習性能を示す。
論文 参考訳(メタデータ) (2021-02-28T23:00:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。