論文の概要: Provable Interactive Learning with Hindsight Instruction Feedback
- arxiv url: http://arxiv.org/abs/2404.09123v1
- Date: Sun, 14 Apr 2024 02:18:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 15:27:43.959948
- Title: Provable Interactive Learning with Hindsight Instruction Feedback
- Title(参考訳): Hindsight Instruction Feedback を用いた対話型学習
- Authors: Dipendra Misra, Aldo Pacchiano, Robert E. Schapire,
- Abstract要約: 本研究では,教師がエージェントが生成した応答に最も適した教示を提供するため,後向きの指導で学習を学習する。
この後見的な指示のラベル付けは、最適応答の専門的な監督を提供するよりも、提供しやすいことが多い。
この設定のためにLORILと呼ばれるアルゴリズムを導入し、その後悔の度合いが$sqrtT$で、$T$はラウンドの数であり、固有のランクに依存していることを示す。
- 参考スコア(独自算出の注目度): 29.754170272323105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study interactive learning in a setting where the agent has to generate a response (e.g., an action or trajectory) given a context and an instruction. In contrast, to typical approaches that train the system using reward or expert supervision on response, we study learning with hindsight instruction where a teacher provides an instruction that is most suitable for the agent's generated response. This hindsight labeling of instruction is often easier to provide than providing expert supervision of the optimal response which may require expert knowledge or can be impractical to elicit. We initiate the theoretical analysis of interactive learning with hindsight labeling. We first provide a lower bound showing that in general, the regret of any algorithm must scale with the size of the agent's response space. We then study a specialized setting where the underlying instruction-response distribution can be decomposed as a low-rank matrix. We introduce an algorithm called LORIL for this setting and show that its regret scales as $\sqrt{T}$ where $T$ is the number of rounds and depends on the intrinsic rank but does not depend on the size of the agent's response space. We provide experiments in two domains showing that LORIL outperforms baselines even when the low-rank assumption is violated.
- Abstract(参考訳): エージェントが文脈と指示を与えられた応答(例えば、行動や軌跡)を生成するような環境で対話型学習を学習する。
これとは対照的に,報奨や専門家による対応指導を用いてシステムを訓練する典型的なアプローチとは対照的に,教師がエージェントが生成した応答に最も適した指示を提供する後見指導を用いて学習を学習する。
この後見的な指示のラベル付けは、専門家の知識を必要とする場合や、引き起こすのに実用的でない場合の最適な対応を専門家に監督するよりも、提供し易いことが多い。
後見ラベリングを用いた対話型学習の理論解析を始める。
まず、一般に、任意のアルゴリズムの後悔は、エージェントの応答空間の大きさでスケールしなければならないことを示す。
次に、下層の命令応答分布を低ランク行列として分解できる特殊な設定について検討する。
この設定のためにLORILと呼ばれるアルゴリズムを導入し、その後悔のスケールが$\sqrt{T}$で、$T$はラウンドの数であり、固有のランクに依存するが、エージェントの応答空間のサイズに依存しないことを示す。
2つの領域で実験を行い、低ランクの仮定に違反してもLORILはベースラインを上回ります。
関連論文リスト
- Impact of Decentralized Learning on Player Utilities in Stackelberg
Games [57.08270857260131]
多くの2エージェントシステムでは、各エージェントは別々に学習し、2つのエージェントの報酬は完全に一致しない。
分散学習を用いたStackelbergゲームとしてこれらのシステムをモデル化し、標準後悔ベンチマークが少なくとも1人のプレイヤーにとって最悪の線形後悔をもたらすことを示す。
我々は,これらのベンチマークに関して,両プレイヤーにとってほぼ最適な$O(T2/3)を後悔するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-02-29T23:38:28Z) - Hierarchical Decomposition of Prompt-Based Continual Learning:
Rethinking Obscured Sub-optimality [55.88910947643436]
大量のラベルのないデータを実際に扱うためには、自己教師付き事前トレーニングが不可欠である。
HiDe-Promptは、タスク固有のプロンプトと統計のアンサンブルで階層的なコンポーネントを明示的に最適化する革新的なアプローチである。
実験では,HiDe-Promptの優れた性能と,継続学習における事前学習パラダイムへの頑健さを実証した。
論文 参考訳(メタデータ) (2023-10-11T06:51:46Z) - Contextual Bandits and Imitation Learning via Preference-Based Active
Queries [17.73844193143454]
本研究では,学習者が実行された行動報酬の直接的な知識を欠いている文脈的包帯と模倣学習の問題を考察する。
その代わり、学習者は各ラウンドのエキスパートに積極的に問い合わせて2つのアクションを比較し、ノイズの多い好みのフィードバックを受け取ることができる。
学習者の目的は、実行されたアクションに関連する後悔を最小限に抑えると同時に、専門家が行った比較クエリの数を最小化することである。
論文 参考訳(メタデータ) (2023-07-24T16:36:04Z) - Improving Long-Horizon Imitation Through Instruction Prediction [93.47416552953075]
本研究では、しばしば使われない補助的監督源である言語の使用について検討する。
近年のトランスフォーマーモデルの発展にインスパイアされたエージェントは,高レベルの抽象化で動作する時間拡張表現の学習を促す命令予測損失を持つエージェントを訓練する。
さらなる分析では、複雑な推論を必要とするタスクにおいて、命令モデリングが最も重要であり、単純な計画を必要とする環境において、より小さなゲインを提供する。
論文 参考訳(メタデータ) (2023-06-21T20:47:23Z) - Yes, this Way! Learning to Ground Referring Expressions into Actions
with Intra-episodic Feedback from Supportive Teachers [15.211628096103475]
本研究は,協調的な環境下でのエポゾディック内フィードバックを評価するための最初の研究である。
以上の結果から,エポゾディック内フィードバックにより,参加者はシーンの複雑さの側面を一般化できることがわかった。
論文 参考訳(メタデータ) (2023-05-22T10:01:15Z) - The Wisdom of Hindsight Makes Language Models Better Instruction
Followers [84.9120606803906]
強化学習は、人間のフィードバックによる指示に合うように、大きな言語モデルを微調整することに成功している。
そこで本稿では,本論文で提案するアプローチとして,原文を緩和することでフィードバックを指導に変換する手法と,教師付き手法によるアライメント向上のためのモデルをトレーニングする手法を提案する。
言語モデルと命令を整合させる新しいアルゴリズムであるHIR(Hindsight Instruction Relabeling)を提案する。
論文 参考訳(メタデータ) (2023-02-10T12:16:38Z) - Data-Driven Inverse Reinforcement Learning for Expert-Learner Zero-Sum
Games [30.720112378448285]
逆強化学習をエキスパート-ラーナーインタラクションとして定式化する。
学習者エージェントに対して、専門家や対象エージェントの最適性能意図が不明である。
我々は、専門家や学習者エージェントのダイナミクスの知識を必要としない、政治以外のIRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-01-05T10:35:08Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Learning without Knowing: Unobserved Context in Continuous Transfer
Reinforcement Learning [16.814772057210366]
連続状態と行動空間における伝達強化学習問題を、観測不能な文脈情報の下で検討する。
我々のゴールは、コンテキスト認識の専門家データを使用して、学習者に最適なコンテキスト認識ポリシーを学習することである。
論文 参考訳(メタデータ) (2021-06-07T17:49:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。