Fugu-MT 論文翻訳(概要): Implementing Online Reinforcement Learning with Clustering Neural Networks

論文の概要: Implementing Online Reinforcement Learning with Clustering Neural Networks

arxiv url: http://arxiv.org/abs/2402.18472v1
Date: Wed, 28 Feb 2024 16:50:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-29 14:15:49.980080
Title: Implementing Online Reinforcement Learning with Clustering Neural Networks
Title（参考訳）: クラスタリングニューラルネットワークによるオンライン強化学習の実装
Authors: James E. Smith
Abstract要約: 本稿では,生物学的に妥当なネオ・ヘビアン3要素合成学習ルールを持つエージェントを構築することにより,以前のクラスタリングニューラルネットワーク研究に基づいて構築する。提案手法は最終的にはより一般的な手法の低レベル成分として機能する。
参考スコア（独自算出の注目度）: 0.783218941317936
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: An agent employing reinforcement learning takes inputs (state variables) from an environment and performs actions that affect the environment in order to achieve some objective. Rewards (positive or negative) guide the agent toward improved future actions. This paper builds on prior clustering neural network research by constructing an agent with biologically plausible neo-Hebbian three-factor synaptic learning rules, with a reward signal as the third factor (in addition to pre- and post-synaptic spikes). The classic cart-pole problem (balancing an inverted pendulum) is used as a running example throughout the exposition. Simulation results demonstrate the efficacy of the approach, and the proposed method may eventually serve as a low-level component of a more general method.
Abstract（参考訳）: 強化学習を利用するエージェントは、環境からの入力(状態変数)を受け取り、ある目的を達成するために環境に影響を与えるアクションを実行する。報酬(肯定的または否定的)は、エージェントを将来の行動を改善するために導く。本稿では, 生物学的に可塑性なネオ・ヘビーンの3要素シナプス学習規則を付加したエージェントを第3因子として構築し, 先行・後スパイクに加えて, 先行クラスタリングニューラルネットワーク研究を基礎とする。古典的なカートポール問題(逆振り子をバランシングする)が展示全体を通して実行例として使用される。シミュレーションの結果,提案手法はより一般的な手法の低レベル成分として有効であることが示された。

関連論文リスト

Mapping Neural Signals to Agent Performance, A Step Towards Reinforcement Learning from Neural Feedback [2.9060647847644985]
NEURO-LOOPは、人間とエージェントの相互作用を促進するために、本質的な人間報酬システムを利用する暗黙のフィードバックフレームワークである。この研究は、NEURO-LOOPフレームワークにおける重要な第一歩である脳信号をエージェントのパフォーマンスにマッピングする可能性を示している。従来の機械学習手法を用いて,fNIRSデータとエージェント性能の関係を検証した。
論文参考訳（メタデータ） (2025-06-14T21:38:31Z)
ACTRESS: Active Retraining for Semi-supervised Visual Grounding [52.08834188447851]
前回の研究であるRefTeacherは、疑似自信と注意に基づく監督を提供するために教師学生の枠組みを採用することで、この課題に取り組むための最初の試みである。このアプローチは、Transformerベースのパイプラインに従う現在の最先端のビジュアルグラウンドモデルと互換性がない。本稿では, ACTRESS を略したセミスーパービジョン視覚グラウンドのためのアクティブ・リトレーニング手法を提案する。
論文参考訳（メタデータ） (2024-07-03T16:33:31Z)
Exploiting Symmetry and Heuristic Demonstrations in Off-policy Reinforcement Learning for Robotic Manipulation [1.7901837062462316]
本稿では,物理ロボット環境に存在する自然対称性を定義し,組み込むことを目的とする。提案手法は,産業用アームの2つのポイント・ツー・ポイント・リーチタスクによって,障害物を伴わずに検証される。提案手法と従来の非政治強化学習アルゴリズムとの比較研究は,アプリケーションにおける学習性能と潜在的価値の優位性を示している。
論文参考訳（メタデータ） (2023-04-12T11:38:01Z)
Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文参考訳（メタデータ） (2022-06-05T08:49:16Z)
Minimizing Control for Credit Assignment with Strong Feedback [65.59995261310529]
ディープニューラルネットワークにおける勾配に基づくクレジット割り当ての現在の手法は、無限小のフィードバック信号を必要とする。我々は、神経活動に対する強いフィードバックと勾配に基づく学習を組み合わせることで、ニューラルネットワークの最適化に関する新たな視点を自然に導き出すことを示す。 DFCにおける強いフィードバックを用いることで、空間と時間において完全に局所的な学習規則を用いることで、前向きとフィードバックの接続を同時に学習できることを示す。
論文参考訳（メタデータ） (2022-04-14T22:06:21Z)
Sparsity and Heterogeneous Dropout for Continual Learning in the Null Space of Neural Activations [36.24028295650668]
非定常的な入力データストリームからの連続的/長期的学習は知性の基盤である。ディープニューラルネットワークは、新しいものを学ぶ際に、これまで学んだ情報を忘れる傾向がある。近年、ディープニューラルネットワークにおける破滅的な忘れを乗り越えることが、研究の活発な分野となっている。
論文参考訳（メタデータ） (2022-03-12T21:12:41Z)
Ensemble plasticity and network adaptability in SNNs [0.726437825413781]
人工スパイキングニューラルネットワーク(ASNN)は、離散的なイベントベース(スパイク)計算のため、より優れた情報処理効率を約束する。本研究では,スパイク活動のみを用いたエントロピーとネットワークアクティベーションに基づく新しいアンサンブル学習手法を提案する。その結果, スパイクレートの低いニューロンクラスターを刈り取ると, 一般化や性能の低下が予想されることがわかった。
論文参考訳（メタデータ） (2022-03-11T01:14:51Z)
Improving Music Performance Assessment with Contrastive Learning [78.8942067357231]
本研究では,既存のMPAシステムを改善するための潜在的手法として,コントラスト学習について検討する。畳み込みニューラルネットワークに適用された回帰タスクに適した重み付きコントラスト損失を導入する。この結果から,MPA回帰タスクにおいて,コントラッシブ・ベースの手法がSoTA性能に適合し,超越できることが示唆された。
論文参考訳（メタデータ） (2021-08-03T19:24:25Z)
Backprop-Free Reinforcement Learning with Active Neural Generative Coding [84.11376568625353]
動的環境におけるエラー(バックプロップ)のバックプロパゲーションを伴わない行動駆動型生成モデルの学習のための計算フレームワークを提案する。我々は、まばらな報酬でも機能するインテリジェントエージェントを開発し、推論として計画の認知理論からインスピレーションを得ている。我々のエージェントの堅牢な性能は、神経推論と学習のためのバックプロップフリーアプローチがゴール指向の行動を促進するという有望な証拠を提供する。
論文参考訳（メタデータ） (2021-07-10T19:02:27Z)
Social NCE: Contrastive Learning of Socially-aware Motion Representations [87.82126838588279]
実験結果から, 提案手法は最近の軌道予測, 行動クローニング, 強化学習アルゴリズムの衝突速度を劇的に低減することがわかった。本手法は,ニューラルネットワークの設計に関する仮定をほとんど示さないため,神経運動モデルのロバスト性を促進する汎用的手法として使用できる。
論文参考訳（メタデータ） (2020-12-21T22:25:06Z)
Improving Adversarial Robustness by Enforcing Local and Global Compactness [19.8818435601131]
敵の訓練は、広範囲の攻撃に一貫して抵抗する最も成功した方法である。本稿では,局所的・言語的コンパクト性とクラスタリングの仮定を強制する分散分散化ネットワークを提案する。実験の結果,提案するコンポーネントによる対人訓練の強化は,ネットワークの堅牢性をさらに向上させる可能性が示唆された。
論文参考訳（メタデータ） (2020-07-10T00:43:06Z)
AL2: Progressive Activation Loss for Learning General Representations in Classification Neural Networks [12.14537824884951]
本稿では,トレーニング中のアクティベーションの規模を段階的に罰する新たな正規化手法を提案する。本手法が一般化に与える影響をラベルランダム化試験と累積アブレーションを用いて解析した。
論文参考訳（メタデータ） (2020-03-07T18:38:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。