論文の概要: Closing the Gap between TD Learning and Supervised Learning -- A
Generalisation Point of View
- arxiv url: http://arxiv.org/abs/2401.11237v2
- Date: Tue, 12 Mar 2024 01:58:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 00:54:45.933966
- Title: Closing the Gap between TD Learning and Supervised Learning -- A
Generalisation Point of View
- Title(参考訳): TD学習と教師付き学習のギャップを埋める - 一般化の視点から
- Authors: Raj Ghugare, Matthieu Geist, Glen Berseth, Benjamin Eysenbach
- Abstract要約: いくつかの強化学習(RL)アルゴリズムは、トレーニング中に見たことのないタスクを解決するために、経験の断片を縫い合わせることができる。
このoft-sought特性は、動的プログラミングに基づくRL法と教師あり学習(SL)に基づくRL法とを区別する数少ない方法の1つである。
これらの方法がこの重要な縫合特性を許すかどうかは不明である。
- 参考スコア(独自算出の注目度): 51.30152184507165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Some reinforcement learning (RL) algorithms can stitch pieces of experience
to solve a task never seen before during training. This oft-sought property is
one of the few ways in which RL methods based on dynamic-programming differ
from RL methods based on supervised-learning (SL). Yet, certain RL methods
based on off-the-shelf SL algorithms achieve excellent results without an
explicit mechanism for stitching; it remains unclear whether those methods
forgo this important stitching property. This paper studies this question for
the problems of achieving a target goal state and achieving a target return
value. Our main result is to show that the stitching property corresponds to a
form of combinatorial generalization: after training on a distribution of
(state, goal) pairs, one would like to evaluate on (state, goal) pairs not seen
together in the training data. Our analysis shows that this sort of
generalization is different from i.i.d. generalization. This connection between
stitching and generalisation reveals why we should not expect SL-based RL
methods to perform stitching, even in the limit of large datasets and models.
Based on this analysis, we construct new datasets to explicitly test for this
property, revealing that SL-based methods lack this stitching property and
hence fail to perform combinatorial generalization. Nonetheless, the connection
between stitching and combinatorial generalisation also suggests a simple
remedy for improving generalisation in SL: data augmentation. We propose a
temporal data augmentation and demonstrate that adding it to SL-based methods
enables them to successfully complete tasks not seen together during training.
On a high level, this connection illustrates the importance of combinatorial
generalization for data efficiency in time-series data beyond tasks beyond RL,
like audio, video, or text.
- Abstract(参考訳): いくつかの強化学習(RL)アルゴリズムは、トレーニング中に見たことのないタスクを解決するために経験の一部を縫うことができる。
この特性は、動的プログラミングに基づくRL法と教師あり学習(SL)に基づくRL法とを区別する数少ない方法の1つである。
しかし, 市販slアルゴリズムに基づくrl法では縫い付け機構を明示せずに優れた結果が得られるが, この重要な縫い付け特性が得られていないかは定かではない。
本稿では,目標目標状態の達成と目標回帰値の達成という課題に対して,この問題を考察する。
私たちの主な結果は、ステッチ特性が組合せ一般化の形式に対応していることを示すことである:(状態、目標)ペアの分布を訓練した後、トレーニングデータで見ない(状態、目標)ペアを評価したい。
我々の分析によると、この種の一般化はi.i.d.一般化とは異なる。
縫合と一般化のこの関係は、大規模なデータセットやモデルに限らず、SLベースのRL法が縫合を行おうとしない理由を明らかにしている。
この分析に基づいて,この性質を明示的にテストするための新しいデータセットを構築し,slベースの手法ではステッチ特性が欠如しており,したがって組合せ一般化が行えないことを明らかにした。
それでも、縫合と組合せ一般化の関連性は、SLの一般化を改善するための単純な方法である。
本稿では、時間的データ拡張を提案し、SLベースの手法に付加することで、トレーニング中に一緒に見えないタスクを完了できることを実証する。
高いレベルでは、この接続は、音声、ビデオ、テキストといったrl以外のタスクにおける時系列データにおけるデータ効率に対する組合せ一般化の重要性を示している。
関連論文リスト
- Zero-Shot Generalization during Instruction Tuning: Insights from Similarity and Granularity [84.12126298229866]
命令チューニング中のゼロショット一般化は非常に早い時期に行われることを示す。
また、「タスク」の制約を伴わずに、命令チューニング中に非常によく似た、きめ細かなトレーニングデータに遭遇することで、より一般化できることを示す。
インストラクションチューニング中のゼロショット一般化は、インスタンスレベルでのトレーニングとテストデータ間の類似性に基づく一般化の形式であることを示す。
論文 参考訳(メタデータ) (2024-06-17T16:40:21Z) - RL$^3$: Boosting Meta Reinforcement Learning via RL inside RL$^2$ [12.111848705677142]
メタRLへの入力において、従来のRLを通してタスク毎に学習されるアクション値を含むハイブリッドアプローチであるRL$3$を提案する。
RL$3$は、RL$2$と比較して、短期的にはデータ効率を保ちながら、長期的には累積的な報酬を多く得ており、アウト・オブ・ディストリビューション・タスクよりも一般化されていることを示す。
論文 参考訳(メタデータ) (2023-06-28T04:16:16Z) - Contrastive Learning as Goal-Conditioned Reinforcement Learning [147.28638631734486]
強化学習(RL)では,優れた表現が与えられると,課題の解決が容易になる。
ディープRLはこのような優れた表現を自動的に取得する必要があるが、事前の作業では、エンドツーエンドの方法での学習表現が不安定であることが多い。
比較的)表現学習法は,RLアルゴリズムとして自己にキャスト可能であることを示す。
論文 参考訳(メタデータ) (2022-06-15T14:34:15Z) - Improving Zero-shot Generalization in Offline Reinforcement Learning
using Generalized Similarity Functions [34.843526573355746]
強化学習(Reinforcement Learning, RL)エージェントは、複雑な逐次意思決定タスクの解決に広く用いられているが、訓練中に見えないシナリオに一般化することが困難である。
RLにおける一般化のためのオンラインアルゴリズムの性能は、観測間の類似性の評価が不十分なため、オフライン環境では妨げられることを示す。
本稿では, 一般化類似度関数(GSF)と呼ばれる新しい理論的動機付けフレームワークを提案する。このフレームワークは, 競合学習を用いてオフラインのRLエージェントを訓練し, 期待される将来の行動の類似性に基づいて観測を集約する。
論文 参考訳(メタデータ) (2021-11-29T15:42:54Z) - Reinforcement Learning with Augmented Data [97.42819506719191]
本稿では,ほとんどのRLアルゴリズムを拡張可能なシンプルなプラグイン・アンド・プレイモジュールであるReinforcement Learning with Augmented Data (RAD)を提案する。
本稿では,RLアルゴリズムが複雑な最先端手法より優れていることを示すために,ランダム翻訳,作物,カラージッタ,パッチカットアウト,ランダム畳み込み,振幅スケールなどの拡張法を提案する。
論文 参考訳(メタデータ) (2020-04-30T17:35:32Z) - D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。
部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文 参考訳(メタデータ) (2020-04-15T17:18:19Z) - Generalized Hindsight for Reinforcement Learning [154.0545226284078]
1つのタスクを解決しようとするときに収集された低リワードデータは、そのタスクを解決するための信号をほとんど、あるいは全く提供しない、と我々は主張する。
本稿では,動作を適切なタスクで再現するための近似逆強化学習手法であるGeneralized Hindsightを提案する。
論文 参考訳(メタデータ) (2020-02-26T18:57:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。