論文の概要: Deep Intrinsic Surprise-Regularized Control (DISRC): A Biologically Inspired Mechanism for Efficient Deep Q-Learning in Sparse Environments
- arxiv url: http://arxiv.org/abs/2601.17598v1
- Date: Sat, 24 Jan 2026 21:25:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.011554
- Title: Deep Intrinsic Surprise-Regularized Control (DISRC): A Biologically Inspired Mechanism for Efficient Deep Q-Learning in Sparse Environments
- Title(参考訳): 深部内在性サプライズ調整制御(DISRC:Deep Intrinsic Surprise-Regularized Control) : 疎環境における深部Q-Learningのバイオインスパイアされたメカニズム
- Authors: Yash Kini, Shiv Davay, Shreya Polavarapu,
- Abstract要約: 生物にインスパイアされたDQN(Deep Q-Network)の拡張であるDISRC(Deep Intrinsic Surprise-Regularized Control)を紹介する。
DISRCは、潜在空間のサプライズに基づいてQ更新を動的にスケールする。
予備的な結果は、非政治エージェントの学習強度を調節する新しいメカニズムとしてDisRCを確立している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning (DRL) has driven major advances in autonomous control. Still, standard Deep Q-Network (DQN) agents tend to rely on fixed learning rates and uniform update scaling, even as updates are modulated by temporal-difference (TD) error. This rigidity destabilizes convergence, especially in sparse-reward settings where feedback is infrequent. We introduce Deep Intrinsic Surprise-Regularized Control (DISRC), a biologically inspired augmentation to DQN that dynamically scales Q-updates based on latent-space surprise. DISRC encodes states via a LayerNorm-based encoder and computes a deviation-based surprise score relative to a moving latent setpoint. Each update is then scaled in proportion to both TD error and surprise intensity, promoting plasticity during early exploration and stability as familiarity increases. We evaluate DISRC on two sparse-reward MiniGrid environments, which included MiniGrid-DoorKey-8x8 and MiniGrid-LavaCrossingS9N1, under identical settings as a vanilla DQN baseline. In DoorKey, DISRC reached the first successful episode (reward > 0.8) 33% faster than the vanilla DQN baseline (79 vs. 118 episodes), with lower reward standard deviation (0.25 vs. 0.34) and higher reward area under the curve (AUC: 596.42 vs. 534.90). These metrics reflect faster, more consistent learning - critical for sparse, delayed reward settings. In LavaCrossing, DISRC achieved a higher final reward (0.95 vs. 0.93) and the highest AUC of all agents (957.04), though it converged more gradually. These preliminary results establish DISRC as a novel mechanism for regulating learning intensity in off-policy agents, improving both efficiency and stability in sparse-reward domains. By treating surprise as an intrinsic learning signal, DISRC enables agents to modulate updates based on expectation violations, enhancing decision quality when conventional value-based methods fall short.
- Abstract(参考訳): 深層強化学習(DRL)は自律制御に大きな進歩をもたらした。
それでも、標準的なDeep Q-Network(DQN)エージェントは、時間差(TD)エラーによって更新が変調されたとしても、一定の学習率と均一な更新スケーリングに依存する傾向にある。
この剛性は、特にフィードバックが頻繁にないスパース・リワード設定において、収束を不安定にする。
DQNに生物学的にインスパイアされた拡張であるDeep Intrinsic Surprise-Regularized Control (DISRC)を導入する。
DISRCはLayerNormベースのエンコーダを介して状態をエンコードし、動く潜在セットポイントに対して偏差ベースのサプライズスコアを算出する。
各更新は、TDエラーとサプライズ強度の両方に比例してスケールされ、親しみが増すにつれて、初期の探索と安定性が促進される。
DQNベースラインと同じ設定で,MiniGrid-DoorKey-8x8とMiniGrid-LavaCrossingS9N1を含む2つのスパースリワードMiniGrid環境上でdisRCを評価した。
DoorKeyでは、DIRCはバニラDQNベースライン(79対118対118対)よりも33%早く成功し、報酬標準偏差(0.25対0.34)が低く、カーブ下の報酬面積(AUC:596.42対534.90)が高かった。
これらのメトリクスは、より速く、より一貫性のある学習を反映します。
LavaCrossingでは、 DisRC はより高い最終報酬 (0.95 vs. 0.93) を獲得し、全てのエージェントの最高報酬 (957.04) を得たが、より徐々に収束した。
これらの予備的な結果から、DisRCは、非政治エージェントの学習強度を調節し、スパース・リワードドメインの効率と安定性を向上する新しいメカニズムとして確立されている。
DISRCは、サプライズを本質的な学習信号として扱うことにより、エージェントが予測違反に基づいて更新を変更できるようにし、従来の値ベースの手法が不足した場合の意思決定品質を向上させる。
関連論文リスト
- LiQSS: Post-Transformer Linear Quantum-Inspired State-Space Tensor Networks for Real-Time 6G [85.58816960936069]
Sixth-Generation (6G) Open Radio Access Networks (O-RAN) における能動的およびエージェント的制御は、厳密なニアタイム(Near-RT)レイテンシと計算制約の下で制御グレードの予測を必要とする。
本稿では,効率的な無線テレメトリ予測のための変圧器後パラダイムについて検討する。
本稿では、自己アテンションを安定な状態空間動的カーネルに置き換える量子インスピレーション付き状態空間テンソルネットワークを提案する。
論文 参考訳(メタデータ) (2026-01-18T12:08:38Z) - Sat-EnQ: Satisficing Ensembles of Weak Q-Learners for Reliable and Compute-Efficient Reinforcement Learning [0.0]
Sat-EnQは、アグレッシブに最適化する前に、十分に良いことを学習するフレームワークです。
フェーズ1では、初期価値成長を制限する満足度の高い目標の下で、軽量Qネットワークのアンサンブルをトレーニングします。
フェーズ2では、アンサンブルはより大きなネットワークに蒸留され、標準のダブルDQNで微調整される。
論文 参考訳(メタデータ) (2025-12-28T12:41:09Z) - Synchrony-Gated Plasticity with Dopamine Modulation for Spiking Neural Networks [6.085945372100414]
Dopamine-Modulated Spike-Synchrony-Dependent Plasticity (DA-SSDP) は、損失に敏感な同期型規則である。
DA-SSDPは、バッチレベルでスパイクパターンを同期メトリックに凝縮する。
論文 参考訳(メタデータ) (2025-12-08T06:10:44Z) - EDIT: Early Diffusion Inference Termination for dLLMs Based on Dynamics of Training Gradients [6.736735746633275]
拡散に基づく大規模言語モデル (dLLMs) は反復的妄想を通じてトークン生成を洗練させるが、全てのステップが完了する前に答えは安定することが多い。
本稿では,トレーニング時推論に対する十分な推論安定性が検出された場合に,適応的にデノイングを停止する推論時基準であるEDITを提案する。
論文 参考訳(メタデータ) (2025-11-29T23:47:47Z) - CS-SHRED: Enhancing SHRED for Robust Recovery of Spatiotemporal Dynamics [2.8820361301109365]
CS-SHREDは、CSをShallow Recurrent Decoder(SHRED)に統合し、不完全、圧縮、破損したデータから動的を再構築するディープラーニングアーキテクチャである。
従来のSHREDアプローチと比較して、CS-SHREDは、SSIMとPSNR値の改善、正規化エラーの低減、LPIPSスコアの強化によって示されるように、はるかに高い再構築忠実性を達成する。
論文 参考訳(メタデータ) (2025-07-30T00:27:18Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - A Framework for Provably Stable and Consistent Training of Deep
Feedforward Networks [4.21061712600981]
本稿では、教師付き(分類と回帰)および教師なし(強化学習)シナリオにおいて、ディープニューラルネットワークを訓練するための新しいアルゴリズムを提案する。
このアルゴリズムは、標準降下勾配と勾配クリッピング法を組み合わせたものである。
理論的および実験を通して、我々のアルゴリズム更新はばらつきが低く、トレーニング損失はスムーズな方法で減少することを示す。
論文 参考訳(メタデータ) (2023-05-20T07:18:06Z) - Can pruning improve certified robustness of neural networks? [106.03070538582222]
ニューラルネット・プルーニングはディープ・ニューラル・ネットワーク(NN)の実証的ロバスト性を向上させることができることを示す。
実験の結果,NNを適切に刈り取ることで,その精度を8.2%まで向上させることができることがわかった。
さらに,認証された宝くじの存在が,従来の密集モデルの標準および認証された堅牢な精度に一致することを観察する。
論文 参考訳(メタデータ) (2022-06-15T05:48:51Z) - Differentially private training of neural networks with Langevin
dynamics forcalibrated predictive uncertainty [58.730520380312676]
その結果,DP-SGD(差分偏差勾配勾配勾配勾配勾配)は,低校正・過信深層学習モデルが得られることがわかった。
これは、医療診断など、安全クリティカルな応用にとって深刻な問題である。
論文 参考訳(メタデータ) (2021-07-09T08:14:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。