論文の概要: Experience Constrained Hierarchical Federated Reinforcement Learning for Large-scale UAV Teams in Hazardous Environments
- arxiv url: http://arxiv.org/abs/2605.02165v1
- Date: Mon, 04 May 2026 02:46:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.113271
- Title: Experience Constrained Hierarchical Federated Reinforcement Learning for Large-scale UAV Teams in Hazardous Environments
- Title(参考訳): 大規模UAVチームにおける階層的フェデレーション強化学習の経験
- Authors: Qinwei Huang, Rui Zuo, Simon Khan, Qinru Qiu,
- Abstract要約: 本研究は、経験制約付き階層型強化学習(EC-HFRL)を紹介する。
参加者の増加が必ずしも学習性能を向上するとは限らないことを示す。
代わりに、学習のパフォーマンスは、経験の再利用戦略と、クラスタ内の重要な分析学的に特定された勾配遷移エクスペリエンスの優位性に強く結びついています。
- 参考スコア(独自算出の注目度): 3.004055421038805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conventional federated learning assumes that greater learner participation improves training performance, by leveraging abundant, independently generated local data. However, in federated reinforcement learning (FRL) for unmanned aerial vehicle (UAV) teams in hazardous environments where experience generation is severely constrained by safety considerations, energy limitations, and mission duration, this assumption may break. This work introduces Experience-Constrained Hierarchical Federated Reinforcement Learning (EC-HFRL), a framework in which clusters act as federated learning agents, while multiple intra-cluster learners represent parallel learning resources that reuse a shared experience pool. We show that increasing participation does not necessarily improve learning performance. Instead, learning performance is strongly associated with experience reuse strategy and the dominance of key analytically identified gradient transition experiences within a cluster. In particular, minibatch size primarily determines effective replay exposure, while higher intra-cluster participation increases reuse level. Empirical results demonstrate that the performance regimes are strongly associated with the structure of the learning signal, rather than federated aggregation effects, clarifying the limited and secondary role of learner participation in experience-constrained FRL.
- Abstract(参考訳): 従来のフェデレーション学習は、学習者がより多く参加することで、豊富な独立したローカルデータを活用することにより、トレーニングパフォーマンスを向上させることを前提としている。
しかし、無人航空機(UAV)チームのための連合強化学習(FRL)では、安全上の配慮、エネルギー制限、ミッション持続時間によって経験の生成が厳しく制約される危険環境において、この仮定が破られる可能性がある。
本研究では,クラスタがフェデレート学習エージェントとして機能するフレームワークであるEC-HFRL(Experience-Constrained Hierarchical Federated Reinforcement Learning)を導入し,クラスタ内学習者は複数の並列学習リソースを表現し,共有エクスペリエンスプールを再利用する。
参加者の増加が必ずしも学習性能を向上するとは限らないことを示す。
代わりに、学習のパフォーマンスは、経験の再利用戦略と、クラスタ内の重要な分析学的に特定された勾配遷移エクスペリエンスの優位性に強く結びついています。
特に、ミニバッチサイズは、有効リプレイ露光を判定するのに対して、クラスタ内参加の増大は再利用レベルを増加させる。
実験結果から,経験制約FRLにおける学習者の参加の限定的・二次的役割を明らかにすることにより,学習形態が学習信号の構造と強く結びついていることが示唆された。
関連論文リスト
- Complementary Reinforcement Learning [31.660877399506493]
強化学習(Reinforcement Learning, RL)は、LLMベースのエージェントを訓練するための強力なパラダイムとして登場した。
歴史から蒸留された経験は、静的に保存されるか、改善されたアクターと共進化することができない。
神経科学における補完学習システムに着想を得て,経験抽出器と政策アクターのシームレスな共進化を実現するための補完的RLを提案する。
論文 参考訳(メタデータ) (2026-03-18T11:38:01Z) - SLEA-RL: Step-Level Experience Augmented Reinforcement Learning for Multi-Turn Agentic Training [2.291770711277359]
本研究では,SLEA-RL(Step-Level Experience-Augmented Reinforcement Learning)を提案する。
SLEA-RLは、(i)効率的なクラスタインデックス検索のために構造的に等価な環境状態をグループ化するステップレベルの監視クラスタリング、(ii)スコアベースの入出力とレート制限抽出を通じて成功戦略と失敗パターンを蒸留する自己進化体験ライブラリ、(iii)マルチターンエピソード間のきめ細かな優位性推定のためのステップレベルの信用割当によるポリシー最適化の3つのコンポーネントを通して機能する。
論文 参考訳(メタデータ) (2026-03-18T07:16:18Z) - LANPO: Bootstrapping Language and Numerical Feedback for Reinforcement Learning in LLMs [73.27182315028021]
LANPOは、フィードバックの役割をきれいに分離するフレームワークである。
我々の研究は、歴史体験をLLM RLループに統合する堅牢な方法を提供し、より効果的でデータ効率のよい学習エージェントを作成します。
論文 参考訳(メタデータ) (2025-10-18T15:51:19Z) - ExGRPO: Learning to Reason from Experience [82.83309610498446]
検証可能な報酬(RLVR)からの強化学習は、大規模言語モデルの推論能力を改善するための新たなパラダイムである。
標準的なオンライントレーニングは、1回の更新後にロールアウトエクスペリエンスを捨て、計算の非効率性と不安定性につながる。
本稿では,まず,経験価値の効果的な指標であるロールアウトの正しさとエントロピーを考察する。
論文 参考訳(メタデータ) (2025-10-02T17:31:30Z) - RILe: Reinforced Imitation Learning [60.63173816209543]
RILe(Reinforced Learning)は、模倣学習と逆強化学習の強みを組み合わせて、高密度報酬関数を効率的に学習するフレームワークである。
本フレームワークは, 直接模倣が複雑な動作を再現できないような高次元タスクにおいて, 高い性能のポリシーを生成する。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - The Curse of Diversity in Ensemble-Based Exploration [7.209197316045156]
データ共有エージェントの多様なアンサンブルの訓練は、個々のアンサンブルメンバーのパフォーマンスを著しく損なう可能性がある。
私たちはこの現象を多様性の呪いと呼んでいる。
多様性の呪いに対処する表現学習の可能性を示す。
論文 参考訳(メタデータ) (2024-05-07T14:14:50Z) - Relaxed Contrastive Learning for Federated Learning [48.96253206661268]
本稿では,フェデレート学習におけるデータ不均一性の課題に対処する,新しいコントラスト学習フレームワークを提案する。
当社のフレームワークは,既存のフェデレート学習アプローチを,標準ベンチマークにおいて大きなマージンで上回ります。
論文 参考訳(メタデータ) (2024-01-10T04:55:24Z) - Sample-Efficient Reinforcement Learning in the Presence of Exogenous
Information [77.19830787312743]
実世界の強化学習アプリケーションでは、学習者の観察空間は、その課題に関する関連情報と無関係情報の両方でユビキタスに高次元である。
本稿では,強化学習のための新しい問題設定法であるExogenous Decision Process (ExoMDP)を導入する。
内因性成分の大きさのサンプル複雑度で準最適ポリシーを学習するアルゴリズムであるExoRLを提案する。
論文 参考訳(メタデータ) (2022-06-09T05:19:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。