論文の概要: Hypothesis Network Planned Exploration for Rapid Meta-Reinforcement Learning Adaptation
- arxiv url: http://arxiv.org/abs/2311.03701v2
- Date: Sat, 30 Aug 2025 03:04:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-03 20:08:26.083417
- Title: Hypothesis Network Planned Exploration for Rapid Meta-Reinforcement Learning Adaptation
- Title(参考訳): 高速なメタ強化学習適応のための仮説ネットワークによる探索
- Authors: Maxwell Joseph Jacobson, Rohan Menon, John Zeng, Yexiang Xue,
- Abstract要約: メタ強化学習(Meta-RL)における中心的な課題は、以前に学んだタスクが新しいタスクと最もよく似ているかを素早く識別することである。
HyPE(Hypothesis-Planned Exploration)は、適応中のアクションのシーケンスを積極的に計画し、最もよく似た学習タスクを効率的に識別する手法である。
HyPEは65-75%の試験において最も近いタスクを特定し、18-28%の受動的探査基準をはるかに上回り、同じサンプル予算の下で最大4倍の精度で適応できる。
- 参考スコア(独自算出の注目度): 13.35900529177295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Meta-Reinforcement Learning (Meta-RL) learns optimal policies across a series of related tasks. A central challenge in Meta-RL is rapidly identifying which previously learned task is most similar to a new one, in order to adapt to it quickly. Prior approaches, despite significant success, typically rely on passive exploration strategies such as periods of random action to characterize the new task in relation to the learned ones. While sufficient when tasks are clearly distinguishable, passive exploration limits adaptation speed when informative transitions are rare or revealed only by specific behaviors. We introduce Hypothesis-Planned Exploration (HyPE), a method that actively plans sequences of actions during adaptation to efficiently identify the most similar previously learned task. HyPE operates within a joint latent space, where state-action transitions from different tasks form distinct paths. This latent-space planning approach enables HyPE to serve as a drop-in improvement for most model-based Meta-RL algorithms. By using planned exploration, HyPE achieves exponentially lower failure probability compared to passive strategies when informative transitions are sparse. On a natural language Alchemy game, HyPE identified the closest task in 65-75% of trials, far outperforming the 18-28% passive exploration baseline, and yielding up to 4x more successful adaptations under the same sample budget.
- Abstract(参考訳): メタ強化学習(Meta-RL)は、一連の関連するタスクにわたって最適なポリシーを学ぶ。
Meta-RLの中心的な課題は、どの以前に学習されたタスクが新しいタスクと最もよく似ているかを素早く識別することである。
それまでのアプローチは、大きな成功にもかかわらず、通常、学習したタスクに関連して新しいタスクを特徴付けるためにランダムな行動の周期のような受動的探索戦略に依存していた。
タスクがはっきりと区別できるのに十分であるが、受動的探索は情報遷移が稀な場合や、特定の行動によってのみ明らかな場合の適応速度を制限する。
HyPE(Hypothesis-Planned Exploration)は、適応中のアクションのシーケンスを積極的に計画し、最もよく似た学習タスクを効率的に識別する手法である。
HyPEは、異なるタスクから状態-作用遷移が異なるパスを形成する、共同潜在空間内で機能する。
この潜在空間計画アプローチにより、HyPEはほとんどのモデルベースのMeta-RLアルゴリズムのドロップイン改善として機能する。
計画された探索により、HyPEは、情報遷移がスパースである場合のパッシブ戦略に比べて、指数関数的に低い失敗確率を達成する。
自然言語のAlchemyゲームにおいて、HyPEは65-75%の試験において最も近いタスクを特定し、18-28%の受動的探索ベースラインをはるかに上回り、同じサンプル予算の下で最大4倍の精度で適応した。
関連論文リスト
- Orthogonal Projection Subspace to Aggregate Online Prior-knowledge for Continual Test-time Adaptation [67.80294336559574]
連続テスト時間適応(CTTA)は、新しいシナリオに継続的に適応するために、ソース事前訓練されたモデルを必要とするタスクである。
我々は、OoPkと呼ばれるオンライン事前知識を集約する新しいパイプラインOrthogonal Projection Subspaceを提案する。
論文 参考訳(メタデータ) (2025-06-23T18:17:39Z) - Predictability Shapes Adaptation: An Evolutionary Perspective on Modes of Learning in Transformers [51.992454203752686]
トランスフォーマーモデルは、IWL(In-weights Learning)とICL(In-context Learning)の2つの異なるモードで学習する。
我々は進化生物学の類似した適応戦略である遺伝的エンコーディングと表現型可塑性からインスピレーションを得ている。
我々はこれらの予測可能性の次元を実験的に運用し、トランスフォーマーのICL/IWLバランスへの影響について検討する。
論文 参考訳(メタデータ) (2025-05-14T23:31:17Z) - SEVA: Leveraging Single-Step Ensemble of Vicinal Augmentations for Test-Time Adaptation [29.441669360316418]
テスト時間適応(TTA)は、推論中の迅速なモデル適応を通じて、分散シフトに対するモデルロバスト性を高めることを目的としている。
拡張戦略は、信頼性のあるサンプルの可能性を効果的に解き放つことができるが、急速に増大する計算コストは、彼らのリアルタイムアプリケーションを妨げる。
本稿では, 計算負担を増大させることなく, データの増大を生かして, 新たなTTAアプローチであるSingle-step Ensemble of Vicinal Augmentations(SEVA)を提案する。
論文 参考訳(メタデータ) (2025-05-07T02:58:37Z) - Evolution-based Region Adversarial Prompt Learning for Robustness Enhancement in Vision-Language Models [52.8949080772873]
本稿では,ER-APTと呼ばれる進化型領域逆アプティブチューニング手法を提案する。
各トレーニングイテレーションでは、まず従来の勾配法を用いてAEを生成する。
次に、AEsを最適化するために、選択、突然変異、交差を含む遺伝的進化機構を適用する。
最終進化型AEは、従来の単点対向的な高速チューニングの代わりに、地域ベースの対向最適化を実現するために用いられる。
論文 参考訳(メタデータ) (2025-03-17T07:08:47Z) - Can RLHF be More Efficient with Imperfect Reward Models? A Policy Coverage Perspective [31.956232187102465]
本稿では,オンラインRLHFにおける不完全な報酬モデルから知識を伝達する方法を検討する。
本稿では,従来のオンライン学習と比較して,新しい伝達学習原理と証明可能な利点を持つ理論的アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-26T16:03:06Z) - Test-Time Model Adaptation with Only Forward Passes [68.11784295706995]
テストタイム適応は、トレーニング済みのモデルを、潜在的に分布シフトのある未確認テストサンプルに適応させるのに有効であることが証明されている。
テスト時間フォワード最適化適応法(FOA)を提案する。
FOAは量子化された8ビットのViTで動作し、32ビットのViTで勾配ベースのTENTより優れ、ImageNet-Cで最大24倍のメモリ削減を実現する。
論文 参考訳(メタデータ) (2024-04-02T05:34:33Z) - Data-Efficient Task Generalization via Probabilistic Model-based Meta
Reinforcement Learning [58.575939354953526]
PACOH-RLはメタ強化学習(Meta-RL)アルゴリズムである。
既存のMeta-RLメソッドは豊富なメタ学習データを必要とし、ロボット工学などの設定で適用性を制限する。
実験の結果,PACOH-RLはモデルベースRLおよびモデルベースMeta-RLベースラインよりも高い性能を示し,新しい動的条件に適応することがわかった。
論文 参考訳(メタデータ) (2023-11-13T18:51:57Z) - A Simple Yet Effective Strategy to Robustify the Meta Learning Paradigm [16.159983226725565]
本稿では,ある確率レベルで最悪の適応ケースを制御するための2段階戦略を提案する。
実験結果から,本手法はタスク分布に対するメタラーニングの堅牢性を向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-10-01T15:54:45Z) - Efficient Meta Reinforcement Learning for Preference-based Fast
Adaptation [17.165083095799712]
本研究では,ループ内強化学習の文脈における少数ショット適応の問題について検討する。
そこで我々は,嗜好に基づくフィードバックによる迅速なポリシー適応を実現するメタRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-11-20T03:55:09Z) - Meta-Learning with Self-Improving Momentum Target [72.98879709228981]
メタラーナーの性能を向上させるために,SiMT(Self-improving Momentum Target)を提案する。
SiMTはメタラーナーの時間アンサンブルから適応してターゲットモデルを生成する。
我々は、SiMTが幅広いメタ学習手法と組み合わせることで、大きなパフォーマンス向上をもたらすことを示す。
論文 参考訳(メタデータ) (2022-10-11T06:45:15Z) - Towards Evaluating Adaptivity of Model-Based Reinforcement Learning
Methods [25.05409184943328]
モデルに基づく手法は, 局所的な環境変化に適応する能力に乏しいことを示す。
適応的な振る舞いを損なう要素を特定し、深層モデルベースRLで頻繁に使用される基礎技術とリンクする。
適応非線形モデルに基づく手法を構築する際の課題について考察する。
論文 参考訳(メタデータ) (2022-04-25T06:45:16Z) - Learning Fast and Slow for Online Time Series Forecasting [76.50127663309604]
Fast and Slow Learning Networks (FSNet)は、オンライン時系列予測のための総合的なフレームワークである。
FSNetは、最近の変更への迅速な適応と、同様の古い知識の取得のバランスを取る。
私たちのコードは公開されます。
論文 参考訳(メタデータ) (2022-02-23T18:23:07Z) - A Discourse on MetODS: Meta-Optimized Dynamical Synapses for
Meta-Reinforcement Learning [9.926231893220063]
本稿ではメタ強化学習のモデルとして,MetODS(Meta-d Dynamical Synapses)を提案する。
我々は,政策空間における強力な制御規則を学習するモデルとして,MetODSの理論的解釈を開発する。
複数の実験や領域において、MetODSは従来のメタ強化学習手法よりも優れているか好適である。
論文 参考訳(メタデータ) (2022-02-04T19:54:10Z) - Meta-Learning with Adaptive Hyperparameters [55.182841228303225]
我々は、MAMLフレームワークの補完的要素、インナーループ最適化(あるいは高速適応)に焦点を当てる。
高速適応プロセスを大幅に向上させる新しい重み更新ルールを提案する。
論文 参考訳(メタデータ) (2020-10-31T08:05:34Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。