論文の概要: Learning Not to Learn: Nature versus Nurture in Silico
- arxiv url: http://arxiv.org/abs/2010.04466v3
- Date: Sun, 1 May 2022 08:38:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 03:55:13.528276
- Title: Learning Not to Learn: Nature versus Nurture in Silico
- Title(参考訳): 学習しない学習--シリコにおける自然と育児
- Authors: Robert Tjarko Lange and Henning Sprekeler
- Abstract要約: 私たちはメタラーニング(あるいは'学習する')というフレームワークを使って、このような適応的な戦略を学ぶのが有益であるときに答えます。
生態的不確実性、タスクの複雑さ、エージェントの寿命の相互作用は、メタ学習されたアモータライズされたベイズ推定に決定的な影響を及ぼすことがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Animals are equipped with a rich innate repertoire of sensory, behavioral and
motor skills, which allows them to interact with the world immediately after
birth. At the same time, many behaviors are highly adaptive and can be tailored
to specific environments by means of learning. In this work, we use
mathematical analysis and the framework of meta-learning (or 'learning to
learn') to answer when it is beneficial to learn such an adaptive strategy and
when to hard-code a heuristic behavior. We find that the interplay of
ecological uncertainty, task complexity and the agents' lifetime has crucial
effects on the meta-learned amortized Bayesian inference performed by an agent.
There exist two regimes: One in which meta-learning yields a learning algorithm
that implements task-dependent information-integration and a second regime in
which meta-learning imprints a heuristic or 'hard-coded' behavior. Further
analysis reveals that non-adaptive behaviors are not only optimal for aspects
of the environment that are stable across individuals, but also in situations
where an adaptation to the environment would in fact be highly beneficial, but
could not be done quickly enough to be exploited within the remaining lifetime.
Hard-coded behaviors should hence not only be those that always work, but also
those that are too complex to be learned within a reasonable time frame.
- Abstract(参考訳): 動物は、知覚、行動、運動のスキルの豊富な生来的なレパートリーを備えており、生後すぐに世界と対話することができる。
同時に、多くの行動は高度に適応しており、学習によって特定の環境に合わせて調整することができる。
本研究では,このような適応的戦略を学習し,ヒューリスティックな振る舞いをハードコーディングする上で有益である場合に,数学的解析とメタラーニング(あるいは学習のための学習)の枠組みを用いる。
その結果, 環境不確実性, タスクの複雑さ, エージェントの寿命の相互作用が, エージェントが行うメタ学習的記憶的ベイズ推定に決定的な影響を及ぼすことがわかった。
メタラーニングがタスク依存の情報統合を実装する学習アルゴリズムと、メタラーニングがヒューリスティックまたは「ハードコード」な振る舞いをインプリントする2つのレジームがある。
さらなる分析により、適応的でない行動は、個人間で安定している環境の側面に最適であるだけでなく、環境への適応が実際に非常に有益であるだけでなく、残りの寿命で十分に活用できない状況にも最適であることが明らかとなった。
したがって、ハードコードされた振る舞いは、常に機能するだけでなく、合理的な時間枠で学ぶには複雑すぎる振る舞いであるべきです。
関連論文リスト
- Life, uh, Finds a Way: Systematic Neural Search [2.163881720692685]
エージェントの動作に迅速に適応して、設定における継続的な問題を解決するという課題に取り組みます。
深層強化学習に焦点をあてる代わりに,探索手順の物理的表現としての視聴行動を提案する。
本稿では,行動実行とグラフの突然変異の間の厳密なフィードバックループを調節することにより,行動の暗黙的な列挙を行うアルゴリズムについて述べる。
論文 参考訳(メタデータ) (2024-10-02T09:06:54Z) - Choreographer: Learning and Adapting Skills in Imagination [60.09911483010824]
我々は、その世界モデルを利用して想像力のスキルを学び、適応するモデルベースのエージェントであるChoreographerを紹介する。
提案手法は探索とスキル学習のプロセスを切り離し,モデルの潜在状態空間におけるスキルの発見を可能にする。
Choreographerはオフラインデータからスキルを学ぶことができ、探索ポリシーと同時にデータを集めることができる。
論文 参考訳(メタデータ) (2022-11-23T23:31:14Z) - The Introspective Agent: Interdependence of Strategy, Physiology, and
Sensing for Embodied Agents [51.94554095091305]
本論では, 環境の文脈において, 自己能力を考慮した内省的エージェントについて論じる。
自然と同じように、私たちは戦略を1つのツールとして再編成して、環境において成功させたいと考えています。
論文 参考訳(メタデータ) (2022-01-02T20:14:01Z) - Connecting Context-specific Adaptation in Humans to Meta-learning [23.923548278086383]
文脈条件付きメタ学習が認知タスクにおいて人間の行動をどのように捉えるかを示す。
我々の研究は、メタラーニングをタスク情報で導くことは、複雑で人間らしい振る舞いを捉えることができることを示した。
論文 参考訳(メタデータ) (2020-11-27T15:31:39Z) - Learning in a Small/Big World [0.0]
本稿では,環境の複雑さが低く高い中小世界の最適学習行動の特徴を,意思決定者の認知能力と比較して検討する。
大世界では、最適学習行動は、単純化、相関無視、持続的過信、不注意学習、モデルの単純化や不特定化といった幅広い文書化された非ベイズ学習行動を示す可能性がある。
論文 参考訳(メタデータ) (2020-09-24T19:25:02Z) - Importance Weighted Policy Learning and Adaptation [89.46467771037054]
政治外学習の最近の進歩の上に構築された,概念的にシンプルで,汎用的で,モジュール的な補完的アプローチについて検討する。
このフレームワークは確率論的推論文学のアイデアにインスパイアされ、堅牢な非政治学習と事前の行動を組み合わせる。
提案手法は,メタ強化学習ベースラインと比較して,ホールドアウトタスクにおける競合適応性能を実現し,複雑なスパース・リワードシナリオにスケールすることができる。
論文 参考訳(メタデータ) (2020-09-10T14:16:58Z) - Meta-Gradient Reinforcement Learning with an Objective Discovered Online [54.15180335046361]
本稿では,深層ニューラルネットワークによって柔軟にパラメータ化される,自己目的のメタ段階的降下に基づくアルゴリズムを提案する。
目的はオンラインで発見されるため、時間とともに変化に適応することができる。
Atari Learning Environmentでは、メタグラディエントアルゴリズムが時間とともに適応して、より効率よく学習する。
論文 参考訳(メタデータ) (2020-07-16T16:17:09Z) - Ecological Reinforcement Learning [76.9893572776141]
このような条件下での学習を容易にする環境特性について検討する。
環境の特性が強化学習エージェントのパフォーマンスにどのように影響するかを理解することは、学習を魅力的にする方法でタスクを構造化するのに役立ちます。
論文 参考訳(メタデータ) (2020-06-22T17:55:03Z) - Pitfalls of learning a reward function online [28.2272248328398]
我々は、エージェントが報酬関数を学習し、同時にそれを最適化する連続的な(一生の)学習アプローチを考える。
これは、学習プロセスを一方向に意図的に操作するなど、いくつかの落とし穴が伴っている。
影響のないプロセスが自動的に制限不能であることを示し、可能環境の集合が十分にリッチであれば、その逆も真であることを示す。
論文 参考訳(メタデータ) (2020-04-28T16:58:58Z) - Never Stop Learning: The Effectiveness of Fine-Tuning in Robotic
Reinforcement Learning [109.77163932886413]
本稿では,ロボットによるロボット操作ポリシーを,政治以外の強化学習を通じて微調整することで,新たなバリエーションに適応する方法を示す。
この適応は、タスクをゼロから学習するために必要なデータの0.2%未満を使用する。
事前訓練されたポリシーを適用するという私たちのアプローチは、微調整の過程で大きなパフォーマンス向上につながります。
論文 参考訳(メタデータ) (2020-04-21T17:57:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。