論文の概要: Breaching the Bottleneck: Evolutionary Transition from Reward-Driven Learning to Reward-Agnostic Domain-Adapted Learning in Neuromodulated Neural Nets
- arxiv url: http://arxiv.org/abs/2404.12631v2
- Date: Fri, 2 Aug 2024 07:04:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-05 18:13:29.855203
- Title: Breaching the Bottleneck: Evolutionary Transition from Reward-Driven Learning to Reward-Agnostic Domain-Adapted Learning in Neuromodulated Neural Nets
- Title(参考訳): ボトルネックの漂流:ニューラルネットにおける逆行学習から逆行非依存的ドメイン適応学習への進化的移行
- Authors: Solvi Arnold, Reiji Suzuki, Takaya Arita, Kimitoshi Yamazaki,
- Abstract要約: AI学習アルゴリズムは、適切な振る舞いを取得するために、外部から用意された振る舞い品質の測定に頼っている。
これにより、多様な非逆刺激情報からの学習を妨げる情報のボトルネックが生じる。
まず、報奨信号から学習する能力を進化させ、非効率(ボトルネック化)だが広い適応性を提供することを提案する。
- 参考スコア(独自算出の注目度): 0.3428444467046466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advanced biological intelligence learns efficiently from an information-rich stream of stimulus information, even when feedback on behaviour quality is sparse or absent. Such learning exploits implicit assumptions about task domains. We refer to such learning as Domain-Adapted Learning (DAL). In contrast, AI learning algorithms rely on explicit externally provided measures of behaviour quality to acquire fit behaviour. This imposes an information bottleneck that precludes learning from diverse non-reward stimulus information, limiting learning efficiency. We consider the question of how biological evolution circumvents this bottleneck to produce DAL. We propose that species first evolve the ability to learn from reward signals, providing inefficient (bottlenecked) but broad adaptivity. From there, integration of non-reward information into the learning process can proceed via gradual accumulation of biases induced by such information on specific task domains. This scenario provides a biologically plausible pathway towards bottleneck-free, domain-adapted learning. Focusing on the second phase of this scenario, we set up a population of NNs with reward-driven learning modelled as Reinforcement Learning (A2C), and allow evolution to improve learning efficiency by integrating non-reward information into the learning process using a neuromodulatory update mechanism. On a navigation task in continuous 2D space, evolved DAL agents show a 300-fold increase in learning speed compared to pure RL agents. Evolution is found to eliminate reliance on reward information altogether, allowing DAL agents to learn from non-reward information exclusively, using local neuromodulation-based connection weight updates only. Code available at github.com/aislab/dal.
- Abstract(参考訳): 高度な生物学的知能は、行動品質に対するフィードバックが不足したり欠如している場合でも、情報豊富な刺激情報のストリームから効率的に学習する。
このような学習はタスク領域に関する暗黙の仮定を利用する。
ドメイン適応学習(Domain-Adapted Learning, DAL)などを指す。
対照的に、AI学習アルゴリズムは、適合した振る舞いを取得するために、外部から提供された行動品質の測定に頼っている。
これにより、学習効率を制限し、多様な非逆刺激情報からの学習を妨げる情報ボトルネックが課せられる。
生物進化がこのボトルネックを回避してDALを発生させるのかという問題を考察する。
まず、報奨信号から学習する能力を進化させ、非効率(ボトルネック化)だが広い適応性を提供することを提案する。
そこから、学習プロセスへの非逆情報の統合は、特定のタスク領域におけるそのような情報によって引き起こされるバイアスの段階的な蓄積によって進行する。
このシナリオは、ボトルネックのないドメイン適応学習への生物学的に妥当な経路を提供する。
このシナリオの第2フェーズに着目して、強化学習(Reinforcement Learning, A2C)をモデルとした報酬駆動学習(Reinforcement Learning, A2C)によるNNの集団を構築し、神経変調更新機構を用いて学習プロセスに非逆情報を統合することにより、学習効率の向上を可能にする。
連続2次元空間におけるナビゲーションタスクでは、進化したDALエージェントは純粋なRLエージェントに比べて学習速度が300倍に向上している。
進化は報酬情報への依存を完全に排除し、DALエージェントは、局所的な神経変調に基づく接続重み更新のみを使用して、非逆情報からのみ学習することができる。
github.com/aislab/dalで公開されている。
関連論文リスト
- Drift to Remember [25.76885050851894]
人工知能(AI)における生涯学習は、生物学的脳が継続的に学習し、知識を保持する能力を模倣することを目的としている。
最近の神経科学研究は、生物学的システムの神経活動が表現的ドリフト(英語版)を受けていることを示唆している。
そこでDriftNetを紹介した。DriftNetは、ロスランドスケープにおける様々なローカルミニマを常に探索し、関連するタスクを動的に検索するネットワークである。
論文 参考訳(メタデータ) (2024-09-21T03:18:44Z) - Mind the Interference: Retaining Pre-trained Knowledge in Parameter Efficient Continual Learning of Vision-Language Models [79.28821338925947]
ドメインクラスのインクリメンタル学習は現実的だが、継続的な学習シナリオである。
これらの多様なタスクに対処するために、事前訓練されたビジョンランゲージモデル(VLM)を導入し、その強力な一般化性を実現する。
事前訓練されたVLMにエンコードされた知識は、新しいタスクに適応する際に妨げられ、固有のゼロショット能力を損なう。
既存の手法では、膨大なオーバーヘッドを必要とする余分なデータセットに知識蒸留でVLMをチューニングすることで、この問題に対処している。
我々は、事前学習した知識を保持できるDIKI(Distributed-Aware Interference-free Knowledge Integration)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-07T12:19:37Z) - Towards evolution of Deep Neural Networks through contrastive Self-Supervised learning [0.49157446832511503]
自己教師付き学習を用いて深層ニューラルネットワークを進化させるフレームワークを提案する。
その結果,ラベル付きデータへの依存を低減しつつ,適切なニューラルネットワークを進化させることが可能であることがわかった。
論文 参考訳(メタデータ) (2024-06-20T17:38:16Z) - Bridging Neuroscience and AI: Environmental Enrichment as a Model for Forward Knowledge Transfer [0.0]
本研究では, 環境富化(EE)が, 転送研究の生物学的モデルとして利用できることを示唆する。
EEは、認知、社会的、運動、感覚刺激を高める動物研究を指す。
人工ニューラルネットワーク(ANN)が、豊かな経験の後の神経変化を予測するためにどのように使用できるかについて議論する。
論文 参考訳(メタデータ) (2024-05-12T14:33:50Z) - Reinforcement Learning from Passive Data via Latent Intentions [86.4969514480008]
我々は、下流RLを加速する機能を学ぶために、受動的データが引き続き使用できることを示す。
我々のアプローチは、意図をモデル化することで受動的データから学習する。
実験では、クロス・エボディメント・ビデオデータやYouTubeビデオなど、さまざまな形式の受動的データから学習できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:59:05Z) - Continual Learning with Deep Learning Methods in an Application-Oriented
Context [0.0]
人工知能(AI)の重要な研究領域は、データから知識を自動的に導出することである。
ディープニューラルネットワーク(Deep Neural Networks, DNN)と呼ばれる、"ディープラーニング"モデルに分類される機械学習アルゴリズムの一種。
DNNは、新しい知識が既存のベースに追加されるのを防ぐ問題の影響を受けます。
論文 参考訳(メタデータ) (2022-07-12T10:13:33Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Reducing Catastrophic Forgetting in Self Organizing Maps with
Internally-Induced Generative Replay [67.50637511633212]
生涯学習エージェントは、パターン知覚データの無限のストリームから継続的に学習することができる。
適応するエージェントを構築する上での歴史的難しさの1つは、ニューラルネットワークが新しいサンプルから学ぶ際に、以前取得した知識を維持するのに苦労していることである。
この問題は破滅的な忘れ(干渉)と呼ばれ、今日の機械学習の領域では未解決の問題のままである。
論文 参考訳(メタデータ) (2021-12-09T07:11:14Z) - Backprop-Free Reinforcement Learning with Active Neural Generative
Coding [84.11376568625353]
動的環境におけるエラー(バックプロップ)のバックプロパゲーションを伴わない行動駆動型生成モデルの学習のための計算フレームワークを提案する。
我々は、まばらな報酬でも機能するインテリジェントエージェントを開発し、推論として計画の認知理論からインスピレーションを得ている。
我々のエージェントの堅牢な性能は、神経推論と学習のためのバックプロップフリーアプローチがゴール指向の行動を促進するという有望な証拠を提供する。
論文 参考訳(メタデータ) (2021-07-10T19:02:27Z) - Towards Efficient Processing and Learning with Spikes: New Approaches
for Multi-Spike Learning [59.249322621035056]
各種タスクにおける他のベースラインよりも優れた性能を示すための2つの新しいマルチスパイク学習ルールを提案する。
特徴検出タスクでは、教師なしSTDPの能力と、その制限を提示する能力を再検討する。
提案した学習ルールは,特定の制約を適用せずに,幅広い条件で確実にタスクを解くことができる。
論文 参考訳(メタデータ) (2020-05-02T06:41:20Z) - Learning to Continually Learn [14.988129334830003]
ニューロ変調メタラーニングアルゴリズム(ANML)を提案する。
脳の神経調節過程にインスパイアされた我々は、神経変調メタラーニングアルゴリズム(ANML)を提案する。
ANMLは最先端の継続的学習性能を生成し、600以上のクラスを逐次学習する(9000以上のSGD更新)。
論文 参考訳(メタデータ) (2020-02-21T22:52:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。