Fugu-MT 論文翻訳(概要): A Brief Look at Generalization in Visual Meta-Reinforcement Learning

論文の概要: A Brief Look at Generalization in Visual Meta-Reinforcement Learning

arxiv url: http://arxiv.org/abs/2006.07262v3
Date: Fri, 3 Jul 2020 13:55:03 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-22 02:04:25.255929
Title: A Brief Look at Generalization in Visual Meta-Reinforcement Learning
Title（参考訳）: ビジュアルメタ強化学習における一般化の一考察
Authors: Safa Alver, Doina Precup
Abstract要約: メタ強化学習アルゴリズムの一般化性能を評価する。これらのアルゴリズムは、困難なタスクで評価された場合、強いオーバーフィッティングを示すことができる。
参考スコア（独自算出の注目度）: 56.50123642237106
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Due to the realization that deep reinforcement learning algorithms trained on high-dimensional tasks can strongly overfit to their training environments, there have been several studies that investigated the generalization performance of these algorithms. However, there has been no similar study that evaluated the generalization performance of algorithms that were specifically designed for generalization, i.e. meta-reinforcement learning algorithms. In this paper, we assess the generalization performance of these algorithms by leveraging high-dimensional, procedurally generated environments. We find that these algorithms can display strong overfitting when they are evaluated on challenging tasks. We also observe that scalability to high-dimensional tasks with sparse rewards remains a significant problem among many of the current meta-reinforcement learning algorithms. With these results, we highlight the need for developing meta-reinforcement learning algorithms that can both generalize and scale.
Abstract（参考訳）: 高次元タスクを訓練した深層強化学習アルゴリズムがトレーニング環境に強く適合できることに気付き、これらのアルゴリズムの一般化性能を調査した研究がいくつか行われている。しかし、メタ強化学習アルゴリズムなど、特に一般化のために設計されたアルゴリズムの一般化性能を評価する同様の研究は行われていない。本稿では,高次元の手続き的環境を利用して,これらのアルゴリズムの一般化性能を評価する。これらのアルゴリズムは、困難なタスクで評価された場合、強いオーバーフィッティングを示すことができる。また,近年のメタ強化学習アルゴリズムでは,高次元タスクに対する疎度な報酬を伴うスケーラビリティが大きな問題となっている。これらの結果から,一般化と拡張が可能なメタ強化学習アルゴリズムの開発の必要性を強調する。

関連論文リスト

How Should We Meta-Learn Reinforcement Learning Algorithms? [74.37180723338591]
メタ学習型アルゴリズムに適用した場合、異なるアプローチの実証的な比較を行う。また, メタトレインとメタテスト性能に加えて, 解釈可能性, サンプルコスト, 列車時間などの要因についても検討した。我々は,将来学習されるアルゴリズムが可能な限り高性能であることを保証するために,新しいRLアルゴリズムをメタラーニングするためのガイドラインをいくつか提案する。
論文参考訳（メタデータ） (2025-07-23T16:31:38Z)
Position: We Need An Algorithmic Understanding of Generative AI [7.425924654036041]
本稿では,LLMが学習・使用するアルゴリズムを体系的に研究するためのフレームワークであるAlgEvalを提案する。 AlgEvalは、潜在表現、注意、推論時間計算に反映されるアルゴリズムプリミティブと、タスク固有の問題を解決するアルゴリズム構成を明らかにすることを目的としている。
論文参考訳（メタデータ） (2025-07-10T08:38:47Z)
From Decoding to Meta-Generation: Inference-time Algorithms for Large Language Models [63.188607839223046]
この調査は、推論中に計算をスケールするメリットに焦点を当てている。我々はトークンレベルの生成アルゴリズム、メタジェネレーションアルゴリズム、効率的な生成という3つの領域を統一的な数学的定式化の下で探索する。
論文参考訳（メタデータ） (2024-06-24T17:45:59Z)
Large-scale Benchmarking of Metaphor-based Optimization Heuristics [5.081212121019668]
BBOB関数スイート上で294のアルゴリズム実装を実行する。提案手法は, 予算の選択, 性能評価, 実験設計のその他の側面が, これらのアルゴリズムの比較にどう影響するかを考察する。
論文参考訳（メタデータ） (2024-02-15T08:54:46Z)
Discovering General Reinforcement Learning Algorithms with Adversarial Environment Design [54.39859618450935]
メタ学習型更新ルールは,広範囲のRLタスクで良好に機能するアルゴリズムの発見を期待して,実現可能であることを示す。 Learned Policy Gradient (LPG)のようなアルゴリズムによる印象的な初期結果にもかかわらず、これらのアルゴリズムが目に見えない環境に適用される場合、まだギャップが残っている。本研究では,メタ教師付き学習分布の特性が,これらのアルゴリズムの性能に与える影響について検討する。
論文参考訳（メタデータ） (2023-10-04T12:52:56Z)
Representation Learning with Multi-Step Inverse Kinematics: An Efficient and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文参考訳（メタデータ） (2023-04-12T14:51:47Z)
Dual Algorithmic Reasoning [9.701208207491879]
本稿では,基礎となるアルゴリズム問題の双対性を利用してアルゴリズムを学習することを提案する。アルゴリズム学習における最適化問題の2つの定義を同時に学習することで、より良い学習が可能になることを実証する。次に、難易度の高い脳血管分類タスクにデプロイすることで、二元アルゴリズム推論の現実的な実用性を検証する。
論文参考訳（メタデータ） (2023-02-09T08:46:23Z)
A Generalist Neural Algorithmic Learner [18.425083543441776]
我々は、幅広いアルゴリズムを実行することを学習できる単一のグラフニューラルネットワークプロセッサを構築している。マルチタスク方式でアルゴリズムを効果的に学習できることを示す。
論文参考訳（メタデータ） (2022-09-22T16:41:33Z)
Information-theoretic generalization bounds for black-box learning algorithms [46.44597430985965]
我々は,学習アルゴリズムの出力ではなく,予測に含まれる情報に基づいて,教師付き学習アルゴリズムに対する情報理論の一般化境界を導出する。本研究では,ディープラーニングの実践シナリオにおいて,提案した境界が一般化ギャップに密接に従っていることを示す。
論文参考訳（メタデータ） (2021-10-04T17:28:41Z)
Identifying Co-Adaptation of Algorithmic and Implementational Innovations in Deep Reinforcement Learning: A Taxonomy and Case Study of Inference-based Algorithms [15.338931971492288]
我々は、アルゴリズムの革新と実装決定を分離するために、一連の推論に基づくアクター批判アルゴリズムに焦点を当てる。実装の詳細がアルゴリズムの選択に一致すると、パフォーマンスが大幅に低下します。結果は、どの実装の詳細がアルゴリズムと共適応され、共進化しているかを示す。
論文参考訳（メタデータ） (2021-03-31T17:55:20Z)
Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文参考訳（メタデータ） (2021-01-08T18:55:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。