Fugu-MT 論文翻訳(概要): Meta-Learning Strategies through Value Maximization in Neural Networks

論文の概要: Meta-Learning Strategies through Value Maximization in Neural Networks

arxiv url: http://arxiv.org/abs/2310.19919v2
Date: Mon, 15 Jul 2024 12:07:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-17 02:54:11.583050
Title: Meta-Learning Strategies through Value Maximization in Neural Networks
Title（参考訳）: ニューラルネットワークの値最大化によるメタ学習戦略
Authors: Rodrigo Carrasco-Davis, Javier Masís, Andrew M. Saxe,
Abstract要約: 完全に規範的な目的に対して制御信号を効率よく最適化できる学習活動フレームワークを提案する。本稿では,一般的なメタ学習アルゴリズムにおける近似の影響について検討する。設定全体では、学習の早い段階でタスクの容易な側面に適用する場合、制御の取り組みが最も有益であることが分かります。
参考スコア（独自算出の注目度）: 7.285835869818669
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Biological and artificial learning agents face numerous choices about how to learn, ranging from hyperparameter selection to aspects of task distributions like curricula. Understanding how to make these meta-learning choices could offer normative accounts of cognitive control functions in biological learners and improve engineered systems. Yet optimal strategies remain challenging to compute in modern deep networks due to the complexity of optimizing through the entire learning process. Here we theoretically investigate optimal strategies in a tractable setting. We present a learning effort framework capable of efficiently optimizing control signals on a fully normative objective: discounted cumulative performance throughout learning. We obtain computational tractability by using average dynamical equations for gradient descent, available for simple neural network architectures. Our framework accommodates a range of meta-learning and automatic curriculum learning methods in a unified normative setting. We apply this framework to investigate the effect of approximations in common meta-learning algorithms; infer aspects of optimal curricula; and compute optimal neuronal resource allocation in a continual learning setting. Across settings, we find that control effort is most beneficial when applied to easier aspects of a task early in learning; followed by sustained effort on harder aspects. Overall, the learning effort framework provides a tractable theoretical test bed to study normative benefits of interventions in a variety of learning systems, as well as a formal account of optimal cognitive control strategies over learning trajectories posited by established theories in cognitive neuroscience.
Abstract（参考訳）: 生物学的および人工的な学習エージェントは、ハイパーパラメータの選択から、キュリキュラのようなタスク分布の側面まで、学習方法に関する多くの選択肢に直面している。これらのメタ学習の選択方法を理解することは、生物学的学習者における認知制御機能の規範的な説明を提供し、工学的なシステムを改善することができる。しかし、学習プロセス全体の最適化の複雑さのため、現代のディープネットワークで計算する上で最適な戦略は依然として困難である。ここでは, トラクタブルな環境での最適戦略を理論的に検討する。本稿では,学習を通しての累積性能の削減という,完全に規範的な目的の制御信号を効率的に最適化できる学習活動フレームワークを提案する。簡単なニューラルネットワークアーキテクチャで利用できる勾配勾配降下に対する平均動的方程式を用いて計算的トラクタビリティを得る。本フレームワークは,一貫した規範的環境下で,メタラーニングと自動カリキュラム学習を行う。本稿では,一般的なメタ学習アルゴリズムにおける近似の効果,最適なカリキュラムの側面の推測,連続的な学習環境での最適なニューロン資源割り当ての計算について検討する。設定全体では、学習の早い段階でタスクの容易な側面に適用した場合、コントロールの取り組みが最も有益であることが分かり、その後、より難しい側面への継続的な取り組みが続きます。全体として、学習活動フレームワークは、様々な学習システムにおける介入の規範的利益を研究するための、牽引可能な理論テストベッドを提供し、認知神経科学の確立した理論によって提示される学習軌跡に対する最適な認知制御戦略の正式な説明を提供する。

関連論文リスト

A statistical physics framework for optimal learning [1.243080988483032]
我々は、ニューラルネットワークモデルにおける最適なプロトコルを特定するために、統計物理学と制御理論を統合理論の枠組みで組み合わせる。本稿では,動的順序パラメータに基づいて,学習プロトコルを最適制御問題として定式化する。このフレームワークには、さまざまな学習シナリオ、最適化制約、制御予算が含まれています。
論文参考訳（メタデータ） (2025-07-10T16:39:46Z)
Super Level Sets and Exponential Decay: A Synergistic Approach to Stable Neural Network Training [0.0]
指数減衰と高度な反オーバーフィッティング戦略を統合する動的学習率アルゴリズムを開発した。適応学習率の影響を受けて、損失関数の超レベル集合が常に連結であることを証明する。
論文参考訳（メタデータ） (2024-09-25T09:27:17Z)
A Unified Framework for Neural Computation and Learning Over Time [56.44910327178975]
Hamiltonian Learningはニューラルネットワークを"時間とともに"学習するための新しい統合フレームワーク i)外部ソフトウェアソルバを必要とせずに統合できる、(ii)フィードフォワードおよびリカレントネットワークにおける勾配に基づく学習の概念を一般化する、(iii)新しい視点で開放する、という微分方程式に基づいている。
論文参考訳（メタデータ） (2024-09-18T14:57:13Z)
Reasoning Algorithmically in Graph Neural Networks [1.8130068086063336]
ニューラルネットワークの適応学習能力にアルゴリズムの構造的および規則に基づく推論を統合することを目的としている。この論文は、この領域の研究に理論的および実践的な貢献を提供する。
論文参考訳（メタデータ） (2024-02-21T12:16:51Z)
Discovering Temporally-Aware Reinforcement Learning Algorithms [42.016150906831776]
既存の2つの目的発見アプローチに簡単な拡張を提案する。一般的に使用されるメタ段階的アプローチは適応的目的関数の発見に失敗する。
論文参考訳（メタデータ） (2024-02-08T17:07:42Z)
RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文参考訳（メタデータ） (2023-11-21T21:05:21Z)
Hierarchically Structured Task-Agnostic Continual Learning [0.0]
本研究では,連続学習のタスク非依存的な視点を取り入れ,階層的情報理論の最適性原理を考案する。我々は,情報処理経路の集合を作成することで,忘れを緩和する,Mixture-of-Variational-Experts層と呼ばれるニューラルネットワーク層を提案する。既存の連続学習アルゴリズムのようにタスク固有の知識を必要としない。
論文参考訳（メタデータ） (2022-11-14T19:53:15Z)
On Data Efficiency of Meta-learning [17.739215706060605]
私たちは、現代のメタ学習アルゴリズムの見落とされがちな側面、すなわちそのデータ効率を研究します。本稿では,メタラーニング手法を評価するための新しいシンプルなフレームワークを提案する。本稿では,アクティブなデータ選択を学習学習に取り入れたアクティブなメタラーニングを提案する。
論文参考訳（メタデータ） (2021-01-30T01:44:12Z)
Nonparametric Estimation of Heterogeneous Treatment Effects: From Theory to Learning Algorithms [91.3755431537592]
プラグイン推定と擬似出力回帰に依存する4つの幅広いメタ学習戦略を解析する。この理論的推論を用いて、アルゴリズム設計の原則を導出し、分析を実践に翻訳する方法について強調する。
論文参考訳（メタデータ） (2021-01-26T17:11:40Z)
Importance Weighted Policy Learning and Adaptation [89.46467771037054]
政治外学習の最近の進歩の上に構築された,概念的にシンプルで,汎用的で,モジュール的な補完的アプローチについて検討する。このフレームワークは確率論的推論文学のアイデアにインスパイアされ、堅牢な非政治学習と事前の行動を組み合わせる。提案手法は,メタ強化学習ベースラインと比較して,ホールドアウトタスクにおける競合適応性能を実現し,複雑なスパース・リワードシナリオにスケールすることができる。
論文参考訳（メタデータ） (2020-09-10T14:16:58Z)
Meta-Gradient Reinforcement Learning with an Objective Discovered Online [54.15180335046361]
本稿では,深層ニューラルネットワークによって柔軟にパラメータ化される,自己目的のメタ段階的降下に基づくアルゴリズムを提案する。目的はオンラインで発見されるため、時間とともに変化に適応することができる。 Atari Learning Environmentでは、メタグラディエントアルゴリズムが時間とともに適応して、より効率よく学習する。
論文参考訳（メタデータ） (2020-07-16T16:17:09Z)
Provable Representation Learning for Imitation Learning via Bi-level Optimization [60.059520774789654]
現代の学習システムにおける一般的な戦略は、多くのタスクに有用な表現を学ぶことである。我々は,複数の専門家の軌道が利用できるマルコフ決定過程(MDP)の模倣学習環境において,この戦略を研究する。このフレームワークは,行動のクローン化と観察-アローンの模倣学習設定のためにインスタンス化する。
論文参考訳（メタデータ） (2020-02-24T21:03:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。