論文の概要: An Information-Theoretic Analysis of Out-of-Distribution Generalization in Meta-Learning with Applications to Meta-RL
- arxiv url: http://arxiv.org/abs/2510.23448v1
- Date: Mon, 27 Oct 2025 15:52:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 19:54:32.620167
- Title: An Information-Theoretic Analysis of Out-of-Distribution Generalization in Meta-Learning with Applications to Meta-RL
- Title(参考訳): メタラーニングにおけるアウト・オブ・ディストリビューション一般化の情報理論解析とメタRLへの応用
- Authors: Xingtu Liu,
- Abstract要約: テスト環境がトレーニング環境と一致していない場合と,トレーニング環境がテスト環境よりも広い場合の2つのシナリオに注目します。
メタ強化学習における一般化問題を形式化し、対応する一般化境界を確立する。
勾配に基づくメタ強化学習アルゴリズムの一般化性能を解析する。
- 参考スコア(独自算出の注目度): 1.0152838128195467
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we study out-of-distribution generalization in meta-learning from an information-theoretic perspective. We focus on two scenarios: (i) when the testing environment mismatches the training environment, and (ii) when the training environment is broader than the testing environment. The first corresponds to the standard distribution mismatch setting, while the second reflects a broad-to-narrow training scenario. We further formalize the generalization problem in meta-reinforcement learning and establish corresponding generalization bounds. Finally, we analyze the generalization performance of a gradient-based meta-reinforcement learning algorithm.
- Abstract(参考訳): 本研究では,メタラーニングにおけるアウト・オブ・ディストリビューションの一般化を情報理論の観点から検討する。
私たちは2つのシナリオに重点を置いています。
一 試験環境が訓練環境と一致しないとき、
トレーニング環境がテスト環境よりも広い場合。
1つは標準的な分散ミスマッチ設定に対応し、もう1つは幅の広いトレーニングシナリオを反映している。
さらに,メタ強化学習における一般化問題を定式化し,対応する一般化境界を確立する。
最後に,勾配に基づくメタ強化学習アルゴリズムの一般化性能を解析する。
関連論文リスト
- Provable Zero-Shot Generalization in Offline Reinforcement Learning [55.169228792596805]
ゼロショット一般化特性(ZSG)を用いたオフライン強化学習について検討する。
既存の研究によると、古典的なオフラインRLは新しい、目に見えない環境に一般化できなかった。
PERM と PPPO はともに,ZSG による準最適政策を見出すことができることを示す。
論文 参考訳(メタデータ) (2025-03-11T02:44:32Z) - A Unified Information-Theoretic Framework for Meta-Learning Generalization [46.108362658299946]
本稿では,単一ステップの導出を用いた統合情報理論フレームワークを開発する。
結果として得られるメタ一般化境界は、様々な情報測度で表されるものであり、以前の研究よりも大きな優位性を示している。
雑音と反復的メタ学習アルゴリズムの2つのクラスにおける一般化特性に関する新しい理論的知見を提供する。
論文 参考訳(メタデータ) (2025-01-26T15:22:04Z) - GRAM: Generalization in Deep RL with a Robust Adaptation Module [62.662894174616895]
本研究では,深層強化学習における動的一般化の枠組みを提案する。
本稿では,分散環境と分散環境の両方を識別・反応する機構を提供するロバスト適応モジュールを提案する。
我々のアルゴリズムであるGRAMは,展開時の分布内および分布外シナリオにまたがる強力な一般化性能を実現する。
論文 参考訳(メタデータ) (2024-12-05T16:39:01Z) - On the Importance of Exploration for Generalization in Reinforcement
Learning [89.63074327328765]
本研究では,不確実性の高い状態の探索を支援する方法であるEDE: Exploration via Distributional Ensembleを提案する。
当社のアルゴリズムは,ProcgenとCrafterの両面で最先端を実現するための,最初のバリューベースアプローチである。
論文 参考訳(メタデータ) (2023-06-08T18:07:02Z) - A Survey of Generalisation in Deep Reinforcement Learning [18.098133342169646]
深層強化学習の一般化は、展開時に目に見えない新しい状況に一般化するRLアルゴリズムを作ることを目的としている。
実世界のシナリオで強化学習アルゴリズムを展開するためには、これに取り組むことが不可欠です。
この調査は、この初期段階の分野の概要である。
論文 参考訳(メタデータ) (2021-11-18T16:53:02Z) - Instance based Generalization in Reinforcement Learning [24.485597364200824]
部分観測可能なマルコフ決定過程(POMDP)の文脈における政策学習の分析
探索戦略とは独立に、再使用したインスタンスは、トレーニング中にエージェントが観察するマルコフダイナミクスに大きな変化をもたらすことを証明している。
我々は、データ収集に使用されるコンセンサスポリシーを計算し、インスタンス固有のエクスプロイトを許可しない、特別なポリシーのアンサンブルに対して共有信念表現を訓練することを提案する。
論文 参考訳(メタデータ) (2020-11-02T16:19:44Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z) - Improving Generalization in Meta-learning via Task Augmentation [69.83677015207527]
本稿ではMetaMixとChannel Shuffleの2つのタスク拡張手法を提案する。
MetaMixとChannel Shuffleはどちらも、多くのデータセットにまたがる大きなマージンによって、最先端の結果を上回っている。
論文 参考訳(メタデータ) (2020-07-26T01:50:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。