論文の概要: ARISE: Adaptive Reinforcement Integrated with Swarm Exploration
- arxiv url: http://arxiv.org/abs/2601.00693v1
- Date: Fri, 02 Jan 2026 14:09:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.57944
- Title: ARISE: Adaptive Reinforcement Integrated with Swarm Exploration
- Title(参考訳): ARISE: Swarm Explorationを統合した適応強化
- Authors: Rajiv Chaitanya M, D R Ramesh Babu,
- Abstract要約: ARISEは強化学習を強化する軽量フレームワークである。
政策行動と、各粒子が候補となる政策軌道を表す粒子駆動の提案をブレンドする。
ARISEはより困難なタスクでかなりの利益を得る。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective exploration remains a key challenge in RL, especially with non-stationary rewards or high-dimensional policies. We introduce ARISE, a lightweight framework that enhances reinforcement learning by augmenting standard policy-gradient methods with a compact swarm-based exploration layer. ARISE blends policy actions with particle-driven proposals, where each particle represents a candidate policy trajectory sampled in the action space, and modulates exploration adaptively using reward-variance cues. While easy benchmarks exhibit only slight improvements (e.g., +0.7% on CartPole-v1), ARISE yields substantial gains on more challenging tasks, including +46% on LunarLander-v3 and +22% on Hopper-v4, while preserving stability on Walker2d and Ant. Under non-stationary reward shifts, ARISE provides marked robustness advantages, outperforming PPO by +75 points on CartPole and improving LunarLander accordingly. Ablation studies confirm that both the swarm component and the adaptive mechanism contribute to the performance. Overall, ARISE offers a simple, architecture-agnostic route to more exploratory and resilient RL agents without altering core algorithmic structures.
- Abstract(参考訳): 効果的な探査は、特に非定常的な報酬や高次元政策において、RLの重要な課題である。
ARISEは,コンパクトなSwarmベースの探索層を用いて,標準方針段階の手法を強化することで,強化学習を強化する軽量フレームワークである。
ARISEは政策行動と粒子駆動の提案をブレンドし、各粒子はアクション空間でサンプリングされた政策軌道の候補を表し、報酬分散手段を用いて探索を適応的に調整する。
簡単なベンチマークではわずかに改善されている(例えばCartPole-v1では+0.7%)が、ARISEはLunarLander-v3では+46%、Hopper-v4では+22%、ウォーカー2dとAntでは安定性を保っている。
非定常的な報酬シフトの下で、ARISEは顕著な頑強さのアドバンテージを提供し、CartPoleのPPOを+75ポイント上回り、それに応じてLunarLanderを改善している。
アブレーション研究により、Swarm成分と適応機構の両方が性能に寄与していることが確認された。
全体として、ARISEは、コアアルゴリズム構造を変更することなく、より探索的でレジリエントなRLエージェントへの単純でアーキテクチャに依存しないルートを提供する。
関連論文リスト
- Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - Inverse Reinforcement Learning with Dynamic Reward Scaling for LLM Alignment [51.10604883057508]
DR-IRL(逆強化学習によるリワードの動的調整)を提案する。
まず、IRLを介して7つの有害なカテゴリをカバーするバランスの取れた安全データセットを用いて、カテゴリ固有の報酬モデルを訓練する。
次に,テキストエンコーダのコサイン類似性によるデータレベルの硬さ,報酬ギャップによるモデルレベルの応答性など,タスク難易度による報酬を導入することにより,グループ相対政策最適化(GRPO)を強化する。
論文 参考訳(メタデータ) (2025-03-23T16:40:29Z) - Policy Optimization with Smooth Guidance Learned from State-Only Demonstrations [2.709826237514737]
報酬フィードバックの幅は、オンラインの深層強化学習において依然として難しい問題である。
Smooth Guidance (POSG) を用いたポリシー最適化手法を提案する。
4つのスパース・リワード環境におけるPOSGの制御性能と収束速度の顕著な優位性を示す。
論文 参考訳(メタデータ) (2023-12-30T07:41:45Z) - Confidence-Controlled Exploration: Efficient Sparse-Reward Policy Learning for Robot Navigation [72.24964965882783]
強化学習(RL)はロボットナビゲーションにおいて有望なアプローチであり、ロボットは試行錯誤を通じて学習することができる。
現実世界のロボットタスクは、しばしばまばらな報酬に悩まされ、非効率な探索と準最適政策に繋がる。
本稿では,RLに基づくロボットナビゲーションにおいて,報酬関数を変更せずにサンプル効率を向上させる新しい手法であるConfidence-Controlled Exploration (CCE)を紹介する。
論文 参考訳(メタデータ) (2023-06-09T18:45:15Z) - Entropy Augmented Reinforcement Learning [0.0]
我々は,最適下から脱出する能力を探求し,強化するために,移動型マルコフ決定プロセス(MDP)を提案する。
実験では,MuJoCoベンチマークタスクにおけるTRPOとPPOの強化実験を行い,エージェントがより高い報酬領域に向けてハートアップされていることを示す。
論文 参考訳(メタデータ) (2022-08-19T13:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。