論文の概要: Insect-inspired modular architectures as inductive biases for reinforcement learning
- arxiv url: http://arxiv.org/abs/2604.22081v1
- Date: Thu, 23 Apr 2026 21:26:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.271716
- Title: Insect-inspired modular architectures as inductive biases for reinforcement learning
- Title(参考訳): 強化学習のための帰納的バイアスとしての昆虫にインスパイアされたモジュラーアーキテクチャ
- Authors: Anne E. Staples,
- Abstract要約: 本稿では,センサエンコーディング,方向表現,疎結合メモリ,リカレントコマンド生成,ローカルモータ制御などの操作モジュールに制御を分解するRLポリシーアーキテクチャについて検討する。
このモデルは、2次元ナビゲーションタスクで評価され、同時に食物探索、障害物回避、捕食者の脱出が必要となる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most reinforcement-learning (RL) controllers used in continuous control are architecturally centralized: observations are compressed into a single latent state from which both value estimates and actions are produced. Biological control systems are often organized differently. Insects, in particular, coordinate navigation, heading stabilization, memory, and context-dependent action selection through distributed circuits rather than a single monolithic controller. Motivated by this contrast, we study an RL policy architecture that decomposes control into interacting modules for sensory encoding, heading representation, sparse associative memory, recurrent command generation, and local motor control, with a learned arbitration mechanism that allocates motor authority across modules. The model is evaluated on a two-dimensional navigation task that require simultaneous food seeking, obstacle avoidance, and predator escape. In a six-seed predator-navigation experiment trained with Proximal Policy Optimization (PPO) for 75 updates, the modular policy achieves the strongest final mean performance among the tested controllers, with final episodic return $-2798.8\pm964.4$ versus $-3778.0\pm628.1$ for a centralized gated recurrent unit (GRU) and $-4727.5\pm772.5$ for a centralized multilayer perceptron (MLP). The modular policy also attains the lowest final value loss and stable PPO optimization statistics while driving module-assignment entropy to $0.0457\pm0.0244$, indicating highly selective control allocation. These results suggest that distributed control can serve as a useful inductive bias for RL problems involving dynamically competing behavioral objectives.
- Abstract(参考訳): 連続制御で使用される強化学習(RL)コントローラの多くは、アーキテクチャ的に一元化されており、観測結果は単一の潜在状態に圧縮され、評価値とアクションの両方が生成される。
生物制御系は、しばしば異なる組織で構成される。
特に昆虫は、単一のモノリシックコントローラではなく、分散回路を介して、座標ナビゲーション、方向安定化、メモリ、コンテキスト依存のアクション選択を行う。
これと対比して, 制御を官能符号化, 方向表現, 疎結合メモリ, リカレントコマンド生成, ローカルモータ制御のための相互作用モジュールに分解するRLポリシーアーキテクチャを, モジュール間のモータ権限を割り当てる学習的調停機構を用いて検討した。
このモデルは、2次元ナビゲーションタスクで評価され、同時に食物探索、障害物回避、捕食者の脱出が必要となる。
75回の更新のためにPPO(Proximal Policy Optimization)で訓練された6シードの捕食者ナビゲーション実験において、モジュラーポリシーはテスト対象のコントローラの中で最強の最終的な平均性能を達成し、最終的なエピソードの戻り値は$-2798.8\pm964.4$対$-3778.0\pm628.1$対$-3778.0\pm628.1$対$-3778.0\pm628.1$対$-4727.5\pm772.5$は集中型多層パーセプトロン(MLP)である。
モジュール割り当てエントロピーを0.0457\pm0.0244$に駆動し、高い選択的な制御割り当てを示す。
これらの結果は、分散制御が、動的に競合する行動目標を含むRL問題に対して有用な帰納バイアスとなることを示唆している。
関連論文リスト
- Diffusion Controller: Framework, Algorithms and Parameterization [54.82539154511621]
本稿では,逆拡散サンプリングを(一般化された)線形解法マルコフ決定過程における状態のみの制御として活用する統一的な制御理論的視点を提案する。
このフレームワークでは、制御はトレーニング済みのリバースタイムのトランジションカーネルを再重み付けし、端末の目的と$f$分割コストのバランスをとる。
安定拡散v1.4の実験では、選好調整の勝利率が一貫した上昇を示し、品質効率のトレードオフを改善した。
論文 参考訳(メタデータ) (2026-03-07T01:49:59Z) - Controllable Exploration in Hybrid-Policy RLVR for Multi-Modal Reasoning [88.42566960813438]
CalibRLは、制御可能な探索と専門家のガイダンスをサポートするハイブリッド政治RLVRフレームワークである。
CalibRLは政策エントロピーを誘導的に増加させ、目標分布を明らかにする。
ドメイン内設定とドメイン外設定の両方を含む8つのベンチマークの実験は、一貫した改善を示している。
論文 参考訳(メタデータ) (2026-02-22T07:23:36Z) - Why Steering Works: Toward a Unified View of Language Model Parameter Dynamics [81.80010043113445]
局所的な微調整、LoRAに基づく適応、およびアクティベーションに基づく介入を分離して研究する。
制御信号によって誘導される動的ウェイト更新として、これらの介入をフレーム化する統一的な視点を示す。
提案手法では,選択と効用との間に一貫したトレードオフが観測される。
論文 参考訳(メタデータ) (2026-02-02T17:04:36Z) - Optimal Controller Realizations against False Data Injections in Cooperative Driving [2.2134894590368748]
本研究では,False-Data Injection(FDI)攻撃の効果を緩和するためのコントローラ指向アプローチについて検討する。
我々は,新しいが等価なコントローラのクラスがベースコントローラを表現可能であることを示す。
FDI攻撃の影響を最小限に抑えるセンサの最適組み合わせを得る。
論文 参考訳(メタデータ) (2024-04-08T09:53:42Z) - Incorporating Recurrent Reinforcement Learning into Model Predictive
Control for Adaptive Control in Autonomous Driving [11.67417895998434]
モデル予測制御(MPC)は、強力な制御技術として自律運転タスクに大きな注目を集めている。
本稿では,この問題を部分的に観測されたマルコフ決定過程(POMDP)として再検討する。
次に、最適かつ適応的な制御のために、リカレント強化学習(RRL)を通して、動的モデルのパラメータを継続的に適応させるリカレントポリシーを学習する。
論文 参考訳(メタデータ) (2023-01-30T22:11:07Z) - Steady-State Error Compensation in Reference Tracking and Disturbance
Rejection Problems for Reinforcement Learning-Based Control [0.9023847175654602]
強化学習(Reinforcement Learning, RL)は、自動制御アプリケーションにおける将来的なトピックである。
アクター批判に基づくRLコントローラのためのイニシアティブアクション状態拡張(IASA)が導入される。
この拡張は専門家の知識を必要とせず、アプローチモデルを無償にしておく。
論文 参考訳(メタデータ) (2022-01-31T16:29:19Z) - Policy Search for Model Predictive Control with Application to Agile
Drone Flight [56.24908013905407]
MPCのためのポリシ・フォー・モデル・予測制御フレームワークを提案する。
具体的には、パラメータ化コントローラとしてMPCを定式化し、パラメータ化の難しい決定変数を高レベルポリシーとして表現する。
シミュレーションと実環境の両方において,我々の制御器が堅牢かつリアルタイムに制御性能を発揮することを示す実験を行った。
論文 参考訳(メタデータ) (2021-12-07T17:39:24Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。