論文の概要: A Computational Model of Representation Learning in the Brain Cortex,
Integrating Unsupervised and Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2106.03688v1
- Date: Mon, 7 Jun 2021 15:03:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-08 17:29:18.410632
- Title: A Computational Model of Representation Learning in the Brain Cortex,
Integrating Unsupervised and Reinforcement Learning
- Title(参考訳): 教師なし・強化学習を統合した脳皮質における表現学習の計算モデル
- Authors: Giovanni Granato, Emilio Cartoni, Federico Da Rold, Andrea Mattera,
Gianluca Baldassarre
- Abstract要約: ドーパミンアウトバーストは基底神経節に限らず、前頭前野、運動、高次感覚皮質にまで達する。
我々は、大脳皮質において、同じ報酬に基づく試行錯誤プロセスが運動表現の獲得を支援することを提案する。
- 参考スコア(独自算出の注目度): 1.3999481573773074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A common view on the brain learning processes proposes that the three classic
learning paradigms -- unsupervised, reinforcement, and supervised -- take place
in respectively the cortex, the basal-ganglia, and the cerebellum. However,
dopamine outbursts, usually assumed to encode reward, are not limited to the
basal ganglia but also reach prefrontal, motor, and higher sensory cortices. We
propose that in the cortex the same reward-based trial-and-error processes
might support not only the acquisition of motor representations but also of
sensory representations. In particular, reward signals might guide
trial-and-error processes that mix with associative learning processes to
support the acquisition of representations better serving downstream action
selection. We tested the soundness of this hypothesis with a computational
model that integrates unsupervised learning (Contrastive Divergence) and
reinforcement learning (REINFORCE). The model was tested with a task requiring
different responses to different visual images grouped in categories involving
either colour, shape, or size. Results show that a balanced mix of unsupervised
and reinforcement learning processes leads to the best performance. Indeed,
excessive unsupervised learning tends to under-represent task-relevant features
while excessive reinforcement learning tends to initially learn slowly and then
to incur in local minima. These results stimulate future empirical studies on
category learning directed to investigate similar effects in the extrastriate
visual cortices. Moreover, they prompt further computational investigations
directed to study the possible advantages of integrating unsupervised and
reinforcement learning processes.
- Abstract(参考訳): 脳学習プロセスに関する一般的な見解では、脳皮質、基底ガングリア、小脳の3つの古典的な学習パラダイム(教師なし、強化、および教師付き)がそれぞれ行われることを示唆している。
しかし、通常報酬を符号化すると考えられているドーパミンアウトバーストは基底神経節に限らず、前頭前野、運動、高次感覚皮質にまで達する。
また, 大脳皮質では, 同じ報酬に基づく試行錯誤プロセスが運動表現の獲得だけでなく, 感覚表現の獲得も支持できる可能性が示唆された。
特に、報奨信号は、連想学習プロセスと混在する試行錯誤プロセスを誘導し、下流での行動選択に役立てる表現の獲得を支援する。
この仮説の健全性について,教師なし学習(contrastive divergence)と強化学習(reinforce)を統合した計算モデルを用いて検証した。
モデルは、色、形状、サイズを含むカテゴリにグループ化された異なる視覚イメージに対する異なる応答を必要とするタスクでテストされた。
その結果、教師なしと強化学習のバランスの取れた混合が、最高のパフォーマンスをもたらすことが示された。
実際、過剰な教師なし学習はタスク関連の特徴を過度に表現する傾向にあり、一方過剰な強化学習は最初はゆっくりと学習し、その後は局所的なミニマで発生する傾向にある。
これらの結果は, 外来視覚皮質における類似効果の検討を指向した, カテゴリー学習の今後の経験的研究を刺激する。
さらに、教師なしおよび強化学習プロセスを統合することの可能な利点を研究するために、さらに計算的な調査が進められている。
関連論文リスト
- The Silent Majority: Demystifying Memorization Effect in the Presence of Spurious Correlations [19.824897288786303]
本稿では,ネットワーク内の小さなニューロンの集合において,突発的特徴のユビキタスな存在を体系的に示す。
少数集団情報を記憶するニューロンやチャネルの小さなサブセットの性質を見いだす。
この仮説を裏付けるために,これらの不要な急激な記憶パターンをトレーニング中に新たな枠組みによって排除することは,マイノリティグループにおけるモデル性能に顕著に影響を及ぼすことを示した。
論文 参考訳(メタデータ) (2025-01-01T21:45:00Z) - ReIL: A Framework for Reinforced Intervention-based Imitation Learning [3.0846824529023387]
Reinforced Intervention-based Learning (ReIL) は、一般的な介入に基づく学習アルゴリズムとマルチタスク模倣学習モデルからなるフレームワークである。
実世界の移動ロボットナビゲーションの課題による実験結果から、ReILは性能の劣化に悩まされることなく、緩やかな監督補正から素早く学習できることが示唆された。
論文 参考訳(メタデータ) (2022-03-29T09:30:26Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - Divergent representations of ethological visual inputs emerge from
supervised, unsupervised, and reinforcement learning [20.98896935012773]
8つの異なる畳み込みニューラルネットワークによって学習された表現を比較する。
強化学習で訓練されたネットワークは,他のネットワークと大きく異なることがわかった。
論文 参考訳(メタデータ) (2021-12-03T17:18:09Z) - Do Self-Supervised and Supervised Methods Learn Similar Visual
Representations? [3.1594831736896025]
コンストラシティブな自己教師付きアルゴリズム(SimCLR)と、共通アーキテクチャにおける単純な画像データの監視を比較した。
両手法は相似的な方法で類似の中間表現を学習し,最後の数層で表現が急速に発散することがわかった。
我々の研究は特に、学習した中間表現の重要性を強調し、補助的なタスク設計において重要な疑問を提起する。
論文 参考訳(メタデータ) (2021-10-01T16:51:29Z) - Improving Music Performance Assessment with Contrastive Learning [78.8942067357231]
本研究では,既存のMPAシステムを改善するための潜在的手法として,コントラスト学習について検討する。
畳み込みニューラルネットワークに適用された回帰タスクに適した重み付きコントラスト損失を導入する。
この結果から,MPA回帰タスクにおいて,コントラッシブ・ベースの手法がSoTA性能に適合し,超越できることが示唆された。
論文 参考訳(メタデータ) (2021-08-03T19:24:25Z) - Co$^2$L: Contrastive Continual Learning [69.46643497220586]
近年の自己教師型学習のブレークスルーは、このようなアルゴリズムが視覚的な表現を学習し、見えないタスクにもっとうまく移行できることを示している。
本稿では、連続的な学習と伝達可能な表現の維持に焦点を当てたリハーサルに基づく連続学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-28T06:14:38Z) - Hard Negative Mixing for Contrastive Learning [29.91220669060252]
我々は、コントラスト学習の重要な側面、すなわちハードネガティブの影響は、これまで無視されてきたと論じている。
計算オーバーヘッドを最小限に抑えながら、オンザフライで計算できる機能レベルでのハードネガティブな混合戦略を提案する。
論文 参考訳(メタデータ) (2020-10-02T14:34:58Z) - Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。
本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。
ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文 参考訳(メタデータ) (2020-07-23T17:59:57Z) - Automatic Recall Machines: Internal Replay, Continual Learning and the
Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。
本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。
代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文 参考訳(メタデータ) (2020-06-22T15:07:06Z) - Facial Feedback for Reinforcement Learning: A Case Study and Offline
Analysis Using the TAMER Framework [51.237191651923666]
訓練者の表情からエージェント学習の可能性について,評価フィードバックとして解釈することで検討した。
設計したCNN-RNNモデルを用いて,学習者に対して表情とコンペティションの使用を指示することで,肯定的および否定的なフィードバックを推定する精度を向上させることができることを示す。
シミュレーション実験の結果,表情に基づく予測フィードバックのみから学習できることが示唆された。
論文 参考訳(メタデータ) (2020-01-23T17:50:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。