論文の概要: ARISE: Adaptive Reinforcement Integrated with Swarm Exploration
- arxiv url: http://arxiv.org/abs/2601.00693v1
- Date: Fri, 02 Jan 2026 14:09:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.57944
- Title: ARISE: Adaptive Reinforcement Integrated with Swarm Exploration
- Title(参考訳): ARISE: Swarm Explorationを統合した適応強化
- Authors: Rajiv Chaitanya M, D R Ramesh Babu,
- Abstract要約: ARISEは強化学習を強化する軽量フレームワークである。
政策行動と、各粒子が候補となる政策軌道を表す粒子駆動の提案をブレンドする。
ARISEはより困難なタスクでかなりの利益を得る。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective exploration remains a key challenge in RL, especially with non-stationary rewards or high-dimensional policies. We introduce ARISE, a lightweight framework that enhances reinforcement learning by augmenting standard policy-gradient methods with a compact swarm-based exploration layer. ARISE blends policy actions with particle-driven proposals, where each particle represents a candidate policy trajectory sampled in the action space, and modulates exploration adaptively using reward-variance cues. While easy benchmarks exhibit only slight improvements (e.g., +0.7% on CartPole-v1), ARISE yields substantial gains on more challenging tasks, including +46% on LunarLander-v3 and +22% on Hopper-v4, while preserving stability on Walker2d and Ant. Under non-stationary reward shifts, ARISE provides marked robustness advantages, outperforming PPO by +75 points on CartPole and improving LunarLander accordingly. Ablation studies confirm that both the swarm component and the adaptive mechanism contribute to the performance. Overall, ARISE offers a simple, architecture-agnostic route to more exploratory and resilient RL agents without altering core algorithmic structures.
- Abstract(参考訳): 効果的な探査は、特に非定常的な報酬や高次元政策において、RLの重要な課題である。
ARISEは,コンパクトなSwarmベースの探索層を用いて,標準方針段階の手法を強化することで,強化学習を強化する軽量フレームワークである。
ARISEは政策行動と粒子駆動の提案をブレンドし、各粒子はアクション空間でサンプリングされた政策軌道の候補を表し、報酬分散手段を用いて探索を適応的に調整する。
簡単なベンチマークではわずかに改善されている(例えばCartPole-v1では+0.7%)が、ARISEはLunarLander-v3では+46%、Hopper-v4では+22%、ウォーカー2dとAntでは安定性を保っている。
非定常的な報酬シフトの下で、ARISEは顕著な頑強さのアドバンテージを提供し、CartPoleのPPOを+75ポイント上回り、それに応じてLunarLanderを改善している。
アブレーション研究により、Swarm成分と適応機構の両方が性能に寄与していることが確認された。
全体として、ARISEは、コアアルゴリズム構造を変更することなく、より探索的でレジリエントなRLエージェントへの単純でアーキテクチャに依存しないルートを提供する。
関連論文リスト
- Controllable Exploration in Hybrid-Policy RLVR for Multi-Modal Reasoning [88.42566960813438]
CalibRLは、制御可能な探索と専門家のガイダンスをサポートするハイブリッド政治RLVRフレームワークである。
CalibRLは政策エントロピーを誘導的に増加させ、目標分布を明らかにする。
ドメイン内設定とドメイン外設定の両方を含む8つのベンチマークの実験は、一貫した改善を示している。
論文 参考訳(メタデータ) (2026-02-22T07:23:36Z) - ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking [84.07076200941474]
ArenaRLは、ポイントワイドスカラースコアからグループ内相対ランクにシフトする強化学習パラダイムである。
我々は,グループ内対角アリーナを構築し,安定した有利な信号を得るためのトーナメントベースのランキングスキームを考案する。
実験により、ArenaRLは標準のRLベースラインを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2026-01-10T08:43:07Z) - PrefPoE: Advantage-Guided Preference Fusion for Learning Where to Explore [12.988713692452519]
textbfPrefPoEは、インテリジェントで有利な探索を行う新しいtextitPreference-Product-of-Expertsフレームワークである。
PrefPoEは、プライオリティネットワークをトレーニングして、高アドバンテージなアクションに集中することにより、ポリシー更新を安定化するtextbfsoftトラスト領域を作成する。
論文 参考訳(メタデータ) (2025-11-11T13:38:43Z) - Agentic Entropy-Balanced Policy Optimization [114.90524574220764]
エージェント強化学習(Agentic RL)は,Webエージェントの多ターン,長期ツール利用能力の活性化に大きく貢献している。
RLアルゴリズムはエントロピーの誘導の下で、高不確実性ツールコールステップを自律的に探索するが、エントロピー信号への過度な依存は、さらなる制約を課す可能性がある。
本稿では,エージェント・エントロピー・バランサード・ポリシー最適化(AEPO, Agentic Entropy-Balanced Policy Optimization)を提案する。
論文 参考訳(メタデータ) (2025-10-16T10:40:52Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - Inverse Reinforcement Learning with Dynamic Reward Scaling for LLM Alignment [51.10604883057508]
DR-IRL(逆強化学習によるリワードの動的調整)を提案する。
まず、IRLを介して7つの有害なカテゴリをカバーするバランスの取れた安全データセットを用いて、カテゴリ固有の報酬モデルを訓練する。
次に,テキストエンコーダのコサイン類似性によるデータレベルの硬さ,報酬ギャップによるモデルレベルの応答性など,タスク難易度による報酬を導入することにより,グループ相対政策最適化(GRPO)を強化する。
論文 参考訳(メタデータ) (2025-03-23T16:40:29Z) - Rocket Landing Control with Random Annealing Jump Start Reinforcement Learning [19.87058922821708]
本稿では,RLを用いた高忠実度ロケットモデルにおいて,ベースライン制御による8%から97%までのロケット着陸制御の成功率を著しく向上させる。
我々のアプローチはRandom Annealing Jump Start (RAJS)と呼ばれ、RLにおける環境探索と政策学習を促進するためのガイドポリシーとして、事前のフィードバックコントローラを活用することで、現実の目標志向の問題に合わせたものである。
論文 参考訳(メタデータ) (2024-07-21T07:47:53Z) - Policy Optimization with Smooth Guidance Learned from State-Only Demonstrations [2.709826237514737]
報酬フィードバックの幅は、オンラインの深層強化学習において依然として難しい問題である。
Smooth Guidance (POSG) を用いたポリシー最適化手法を提案する。
4つのスパース・リワード環境におけるPOSGの制御性能と収束速度の顕著な優位性を示す。
論文 参考訳(メタデータ) (2023-12-30T07:41:45Z) - Confidence-Controlled Exploration: Efficient Sparse-Reward Policy Learning for Robot Navigation [72.24964965882783]
強化学習(RL)はロボットナビゲーションにおいて有望なアプローチであり、ロボットは試行錯誤を通じて学習することができる。
現実世界のロボットタスクは、しばしばまばらな報酬に悩まされ、非効率な探索と準最適政策に繋がる。
本稿では,RLに基づくロボットナビゲーションにおいて,報酬関数を変更せずにサンプル効率を向上させる新しい手法であるConfidence-Controlled Exploration (CCE)を紹介する。
論文 参考訳(メタデータ) (2023-06-09T18:45:15Z) - Entropy Augmented Reinforcement Learning [0.0]
我々は,最適下から脱出する能力を探求し,強化するために,移動型マルコフ決定プロセス(MDP)を提案する。
実験では,MuJoCoベンチマークタスクにおけるTRPOとPPOの強化実験を行い,エージェントがより高い報酬領域に向けてハートアップされていることを示す。
論文 参考訳(メタデータ) (2022-08-19T13:09:32Z) - Dealing with Sparse Rewards in Continuous Control Robotics via
Heavy-Tailed Policies [64.2210390071609]
本稿では,連続制御問題におけるスパース報酬の課題に対処するため,HT-PSG(Heavy-Tailed Policy Gradient)アルゴリズムを提案する。
高平均累積報酬の観点から,全タスクに一貫したパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2022-06-12T04:09:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。