Fugu-MT 論文翻訳(概要): Model-Based Transfer Learning for Contextual Reinforcement Learning

論文の概要: Model-Based Transfer Learning for Contextual Reinforcement Learning

arxiv url: http://arxiv.org/abs/2408.04498v1
Date: Thu, 8 Aug 2024 14:46:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-09 15:18:18.478684
Title: Model-Based Transfer Learning for Contextual Reinforcement Learning
Title（参考訳）: 文脈強化学習のためのモデルに基づく伝達学習
Authors: Jung-Hoon Cho, Vindula Jayawardana, Sirui Li, Cathy Wu,
Abstract要約: トレーニングすべき優れたタスクを体系的に選択する方法を示し、さまざまなタスクにおける全体的なパフォーマンスを最大化する。このアプローチの背後にある主要なアイデアは、トレーニングされたモデルを転送することで生じるパフォーマンス損失を明示的にモデル化することです。都市交通と標準制御ベンチマークを用いて,提案手法を実験的に検証した。
参考スコア（独自算出の注目度）: 5.5597941107270215
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep reinforcement learning is a powerful approach to complex decision making. However, one issue that limits its practical application is its brittleness, sometimes failing to train in the presence of small changes in the environment. This work is motivated by the empirical observation that directly applying an already trained model to a related task often works remarkably well, also called zero-shot transfer. We take this practical trick one step further to consider how to systematically select good tasks to train, maximizing overall performance across a range of tasks. Given the high cost of training, it is critical to choose a small set of training tasks. The key idea behind our approach is to explicitly model the performance loss (generalization gap) incurred by transferring a trained model. We hence introduce Model-Based Transfer Learning (MBTL) for solving contextual RL problems. In this work, we model the performance loss as a simple linear function of task context similarity. Furthermore, we leverage Bayesian optimization techniques to efficiently model and estimate the unknown training performance of the task space. We theoretically show that the method exhibits regret that is sublinear in the number of training tasks and discuss conditions to further tighten regret bounds. We experimentally validate our methods using urban traffic and standard control benchmarks. Despite the conceptual simplicity, the experimental results suggest that MBTL can achieve greater performance than strong baselines, including exhaustive training on all tasks, multi-task training, and random selection of training tasks. This work lays the foundations for investigating explicit modeling of generalization, thereby enabling principled yet effective methods for contextual RL.
Abstract（参考訳）: 深層強化学習は、複雑な意思決定に対する強力なアプローチである。しかし、実用的応用を制限している問題のひとつは、その脆さであり、時には環境に小さな変化があった場合の訓練に失敗することがある。この研究は、既に訓練されたモデルを関連するタスクに直接適用するという経験的観察によって動機付けられ、ゼロショット転送(zero-shot transfer)とも呼ばれる。この実践的なトリックをさらに進めて、さまざまなタスクにわたる全体的なパフォーマンスを最大化しながら、トレーニングする優れたタスクを体系的に選択する方法を検討します。トレーニングのコストが高いことから、少数のトレーニングタスクを選択することが重要です。このアプローチの背後にある重要なアイデアは、トレーニングされたモデルを転送することで生じるパフォーマンス損失(一般化ギャップ)を明示的にモデル化することです。そこで我々は,文脈RL問題の解法としてモデルベーストランスファーラーニング(MBTL)を導入する。本研究では,タスクコンテキスト類似性の単純な線形関数として性能損失をモデル化する。さらに,ベイズ最適化手法を利用して,タスク空間の未知のトレーニング性能を効率的にモデル化し,推定する。理論的には,本手法はトレーニングタスク数に比例する後悔を示し,後悔境界をさらに厳格化するための条件について議論する。都市交通と標準制御ベンチマークを用いて,提案手法を実験的に検証した。概念的単純さにもかかわらず、実験結果はMBTLが全てのタスクの徹底的なトレーニング、マルチタスクトレーニング、ランダムなトレーニングタスクの選択など、強いベースラインよりも高いパフォーマンスを達成できることを示唆している。この研究は、一般化の明示的モデリングを調査するための基礎を築き、文脈的RLの原則的かつ効果的な方法を可能にする。

関連論文リスト

Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文参考訳（メタデータ） (2025-06-17T17:12:34Z)
Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [82.43575191712726]
本稿では,強化学習が推論に与える影響を明らかにするための,きめ細かい分析フレームワークを提案する。本フレームワークは,RLトレーニングの恩恵を受けると仮定された重要な要素を具体的に調査する。
論文参考訳（メタデータ） (2025-06-05T07:53:59Z)
AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning [50.02117478165099]
大規模強化学習は, 強大・中小モデルの推論能力を大幅に向上させることができることを示す。まずは算数のみのプロンプト、次にコードのみのプロンプトのトレーニングを行う。
論文参考訳（メタデータ） (2025-05-22T08:50:47Z)
DUMP: Automated Distribution-Level Curriculum Learning for RL-based LLM Post-training [15.74527731339671]
本稿では,分布レベルの学習可能性の概念に基づくカリキュラム学習フレームワークを提案する。我々のフレームワークは、高い平均的優位性(探索)または低いサンプル数(探索)で分布を優先順位付けする。実験の結果,本フレームワークは収束速度と最終性能を大幅に改善することがわかった。
論文参考訳（メタデータ） (2025-04-13T20:10:27Z)
Fast Adaptation with Behavioral Foundation Models [82.34700481726951]
教師なしゼロショット強化学習は、行動基礎モデルの事前学習のための強力なパラダイムとして登場した。有望な結果にもかかわらず、ゼロショットポリシーは、教師なしのトレーニングプロセスによって引き起こされるエラーにより、しばしば準最適である。本稿では,事前訓練されたBFMの低次元タスク埋め込み空間を探索し,ゼロショットポリシーの性能を急速に向上させる高速適応手法を提案する。
論文参考訳（メタデータ） (2025-04-10T16:14:17Z)
Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文参考訳（メタデータ） (2023-06-26T17:58:50Z)
Learning to Modulate pre-trained Models in RL [22.812215561012874]
訓練済みモデルの微調整は、しばしば破滅的な忘れ込みに悩まされる。本研究は、ほとんどの微調整アプローチにおいて、事前学習タスクのパフォーマンスが著しく低下していることを示す。凍結事前学習モデルの情報フローを変調することにより,学習スキルの劣化を回避する新しい手法L2Mを提案する。
論文参考訳（メタデータ） (2023-06-26T17:53:05Z)
Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文参考訳（メタデータ） (2023-06-06T02:24:41Z)
Large Language Models can Implement Policy Iteration [18.424558160071808]
In-Context Policy Iterationは、基礎モデルを用いてReinforcement Learning(RL)を実行するアルゴリズムである。 ICPIは、専門家によるデモンストレーションやグラデーションなしでRLタスクを実行することを学ぶ。 ICPIは、RL環境との試行錯誤によってポリシーを導出するプロンプトの内容を反復的に更新する。
論文参考訳（メタデータ） (2022-10-07T21:18:22Z)
Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文参考訳（メタデータ） (2022-09-24T14:22:29Z)
Meta Reinforcement Learning with Successor Feature Based Context [51.35452583759734]
本稿では,既存のメタRLアルゴリズムと競合する性能を実現するメタRL手法を提案する。本手法は,複数のタスクに対して同時に高品質なポリシーを学習するだけでなく,短時間のトレーニングで新しいタスクに迅速に適応できる。
論文参考訳（メタデータ） (2022-07-29T14:52:47Z)
RvS: What is Essential for Offline RL via Supervised Learning? [77.91045677562802]
近年の研究では、時間差(TD)のない教師あり学習だけでオフラインRLに極めて効果的であることが示されている。あらゆる環境スイートにおいて、2層フィードフォワードによる可能性の最大化は競争力がある。彼らはまた、ランダムデータに対して比較的弱い既存のRvS法の限界を探索する。
論文参考訳（メタデータ） (2021-12-20T18:55:16Z)
Towards Accurate Knowledge Transfer via Target-awareness Representation Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。 TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文参考訳（メタデータ） (2020-10-16T17:45:08Z)
FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance Metric Learning and Behavior Regularization [10.243908145832394]
本稿では, オフラインメタ強化学習(OMRL)問題について検討する。これは, 強化学習(RL)アルゴリズムが未知のタスクに迅速に適応できるようにするパラダイムである。この問題はまだ完全には理解されていないが、2つの大きな課題に対処する必要がある。我々は、いくつかの単純な設計選択が、最近のアプローチよりも大幅に改善できることを示す分析と洞察を提供する。
論文参考訳（メタデータ） (2020-10-02T17:13:39Z)
Sample-based Regularization: A Transfer Learning Strategy Toward Better Generalization [8.432864879027724]
少量のデータでディープニューラルネットワークをトレーニングすることは、難しい問題である。私たちがよく直面する現実的な難題の1つは、多くのサンプルを集めることです。大規模なデータセットでトレーニングされたソースモデルを使用することで、トレーニングデータの不足に起因する過度な適合を軽減することができる。
論文参考訳（メタデータ） (2020-07-10T06:02:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。