Fugu-MT 論文翻訳(概要): Transferred Q-learning

論文の概要: Transferred Q-learning

arxiv url: http://arxiv.org/abs/2202.04709v1
Date: Wed, 9 Feb 2022 20:08:19 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-12 08:42:26.925535
Title: Transferred Q-learning
Title（参考訳）: 転校qラーニング
Authors: Elynn Y. Chen, Michael I. Jordan, Sai Li
Abstract要約: 我々は、目標強化学習(RL)タスクのサンプルと、異なるが関連するRLタスクのソースサンプルを用いて、知識伝達を伴うQ$ラーニングについて検討する。オフラインのソーススタディを用いたバッチとオンラインの$Q$ラーニングのためのトランスファー学習アルゴリズムを提案する。
参考スコア（独自算出の注目度）: 79.79659145328856
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We consider $Q$-learning with knowledge transfer, using samples from a target reinforcement learning (RL) task as well as source samples from different but related RL tasks. We propose transfer learning algorithms for both batch and online $Q$-learning with offline source studies. The proposed transferred $Q$-learning algorithm contains a novel re-targeting step that enables vertical information-cascading along multiple steps in an RL task, besides the usual horizontal information-gathering as transfer learning (TL) for supervised learning. We establish the first theoretical justifications of TL in RL tasks by showing a faster rate of convergence of the $Q$ function estimation in the offline RL transfer, and a lower regret bound in the offline-to-online RL transfer under certain similarity assumptions. Empirical evidences from both synthetic and real datasets are presented to back up the proposed algorithm and our theoretical results.
Abstract（参考訳）: 我々は、目標強化学習(RL)タスクのサンプルと、異なるが関連するRLタスクのソースサンプルを用いて、知識伝達を伴うQ$ラーニングを検討する。オフラインソーススタディを用いて,バッチとオンラインの両方でq$-learningを行う転送学習アルゴリズムを提案する。提案したQ$-learningアルゴリズムは、教師あり学習のための転写学習(TL)として通常の水平情報収集に加えて、RLタスクの複数のステップに沿って垂直情報カスケードが可能な新しい再ターゲットステップを含む。我々は、オフラインRL転送における$Q$関数推定の収束の速さと、ある類似性仮定の下でのオフライン-オンラインRL転送における低い後悔境界を示すことにより、RLタスクにおけるTLの最初の理論的正当性を確立する。合成データと実データの両方から得られた実証的証拠を提示し,提案アルゴリズムと理論的結果を裏付ける。

関連論文リスト

Putting the Value Back in RL: Better Test-Time Scaling by Unifying LLM Reasoners With Verifiers [57.95157497749428]
RL$V$は、LLMを推論器と生成検証器の両方として共同で訓練することにより、任意の値自由なRL法を増強する。 RL$V$は、並列サンプリングでMATHの精度を20%以上向上し、効率的なテスト時間計算のスケーリングを可能にする。
論文参考訳（メタデータ） (2025-05-07T22:41:26Z)
Expert-Free Online Transfer Learning in Multi-Agent Reinforcement Learning [0.0]
Transfer Learning(TL)は、未知のタスクを扱うエージェントの学習複雑性を低減することを目的としている。他のタスクやエージェントからの外部知識を使用することで、学習プロセスを強化することができる。これは、学習モデルに必要な新しい情報の量を減らすことで達成され、結果として全体の収束時間が短縮される。
論文参考訳（メタデータ） (2025-01-26T11:53:18Z)
Offline Multitask Representation Learning for Reinforcement Learning [86.26066704016056]
強化学習(RL)におけるオフラインマルチタスク表現学習の研究オフラインマルチタスク表現学習のための新しいアルゴリズム MORL を提案する。我々の理論的結果は、ローランクモデルの表現を直接学習するのではなく、上流のオフラインタスクから学習した表現を使用することの利点を実証する。
論文参考訳（メタデータ） (2024-03-18T08:50:30Z)
How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文参考訳（メタデータ） (2024-02-25T20:07:13Z)
An advantage based policy transfer algorithm for reinforcement learning with metrics of transferability [6.660458629649826]
強化学習(Reinforcement Learning, RL)は, 複雑・高次元環境における逐次的意思決定を可能にする。トランスファーRLアルゴリズムは、1つまたは複数のソース環境からターゲット環境への知識の転送に使用できる。本稿では、固定されたドメイン環境に対する非政治アドバンテージベースのポリシー転送アルゴリズムであるAPT-RLを提案する。
論文参考訳（メタデータ） (2023-11-12T04:25:53Z)
RL$^3$: Boosting Meta Reinforcement Learning via RL inside RL$^2$ [12.111848705677142]
メタRLへの入力において、従来のRLを通してタスク毎に学習されるアクション値を含むハイブリッドアプローチであるRL$3$を提案する。 RL$3$は、RL$2$と比較して、短期的にはデータ効率を保ちながら、長期的には累積的な報酬を多く得ており、アウト・オブ・ディストリビューション・タスクよりも一般化されていることを示す。
論文参考訳（メタデータ） (2023-06-28T04:16:16Z)
Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-07-29T17:29:08Z)
Provable Benefit of Multitask Representation Learning in Reinforcement Learning [46.11628795660159]
本稿では,低ランクマルコフ決定過程(MDP)モデルに基づく表現学習の利点を理論的に特徴づける。我々の知る限りでは、探索に基づく報酬なしマルチタスク強化学習における表現学習の利点を特徴づける最初の理論的研究である。
論文参考訳（メタデータ） (2022-06-13T04:29:02Z)
Online Target Q-learning with Reverse Experience Replay: Efficiently finding the Optimal Policy for Linear MDPs [50.75812033462294]
我々は,Q-ラーニングの実践的成功と悲観的理論的結果とのギャップを埋める。本稿では,新しいQ-Rex法とQ-RexDaReを提案する。 Q-Rex は線形 MDP の最適ポリシを効率的に見つけることができる。
論文参考訳（メタデータ） (2021-10-16T01:47:41Z)
Fractional Transfer Learning for Deep Model-Based Reinforcement Learning [0.966840768820136]
強化学習(Reinforcement Learning, RL)は、RLエージェントが複雑なタスクを実行することを学ぶために大量のデータを必要とすることで知られている。モデルベースRLの最近の進歩により、エージェントはずっとデータ効率が良い。簡単な代替手法として、分数変換学習を提案する。
論文参考訳（メタデータ） (2021-08-14T12:44:42Z)
Interpretable performance analysis towards offline reinforcement learning: A dataset perspective [6.526790418943535]
既存のオフラインRLアルゴリズムの2倍の分類法を提案する。異なる種類のアルゴリズムのパフォーマンスと状態下でのアクションの分布との相関性を検討する。我々はAtariドメイン上のベンチマークプラットフォームであるEasy Go(RLEG)を作成し、そのコストは0.3億ドル以上と見積もっている。
論文参考訳（メタデータ） (2021-05-12T07:17:06Z)
Towards Accurate Knowledge Transfer via Target-awareness Representation Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。 TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文参考訳（メタデータ） (2020-10-16T17:45:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。