論文の概要: UAV Trajectory Optimization via Improved Noisy Deep Q-Network
- arxiv url: http://arxiv.org/abs/2602.05644v1
- Date: Thu, 05 Feb 2026 13:23:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.944482
- Title: UAV Trajectory Optimization via Improved Noisy Deep Q-Network
- Title(参考訳): 雑音深部QネットワークによるUAV軌道最適化
- Authors: Zhang Hengyu, Maryam Cheraghy, Liu Wei, Armin Farhadi, Meysam Soltanpour, Zhong Zhuoqing,
- Abstract要約: 提案モデルでは, 標準DQNよりも高速な収束と最大40ドル高い報酬が得られる。
その結果,NuisyNetのネットワーク構造,探索制御,訓練安定性の総合的な改善が,深層Q-ラーニングの効率性と信頼性の向上に寄与していることがわかった。
- 参考スコア(独自算出の注目度): 3.401874042336434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes an Improved Noisy Deep Q-Network (Noisy DQN) to enhance the exploration and stability of Unmanned Aerial Vehicle (UAV) when applying deep reinforcement learning in simulated environments. This method enhances the exploration ability by combining the residual NoisyLinear layer with an adaptive noise scheduling mechanism, while improving training stability through smooth loss and soft target network updates. Experiments show that the proposed model achieves faster convergence and up to $+40$ higher rewards compared to standard DQN and quickly reach to the minimum number of steps required for the task 28 in the 15 * 15 grid navigation environment set up. The results show that our comprehensive improvements to the network structure of NoisyNet, exploration control, and training stability contribute to enhancing the efficiency and reliability of deep Q-learning.
- Abstract(参考訳): 本稿では,無人航空機(UAV)の深部強化学習における探索と安定性を高めるため,改良型ノイズディープQネットワーク(ノイズDQN)を提案する。
本手法は, 残留雑音層と適応雑音スケジューリング機構を併用し, スムーズな損失とソフトターゲットネットワーク更新によるトレーニング安定性の向上を図り, 探索能力の向上を図る。
実験の結果,提案手法は標準DQNよりも高速に収束し,最大40ドル以上の報酬を得ることができ,設定された15×15グリッドナビゲーション環境においてタスク28に必要な最小ステップ数に迅速に到達できることがわかった。
その結果,NuisyNetのネットワーク構造,探索制御,訓練安定性の総合的な改善が,深層Q-ラーニングの効率性と信頼性の向上に寄与していることがわかった。
関連論文リスト
- Lyapunov Stability-Aware Stackelberg Game for Low-Altitude Economy: A Control-Oriented Pruning-Based DRL Approach [37.51135101684223]
無人航空機(UAV)は、ユーザからの多様なサービスを支援する重要な航空基地局として機能している。
このような異種ネットワークの有効性は、制限されたオンボードリソースと厳密な安定性要件の間の競合によってしばしば損なわれる。
本稿では,通信遅延が物理的制御安定性に与える影響を明示的にモデル化する,センシング・通信・通信・通信・通信のクローズドループフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-01T10:01:07Z) - StableQAT: Stable Quantization-Aware Training at Ultra-Low Bitwidths [49.94623294999562]
量子化対応トレーニング(QAT)は、厳格なメモリとレイテンシの制約の下で大規模モデルをデプロイするために不可欠である。
ストレートスルー推定器(STE)やソフト量子化器に基づく一般的な手法は、しばしばミスマッチ、不安定、高い計算オーバーヘッドに悩まされる。
超低ビット環境でのトレーニングを安定化する統合的で効率的なQATフレームワークであるStableQATを提案する。
論文 参考訳(メタデータ) (2026-01-27T08:00:57Z) - SPEQ: Offline Stabilization Phases for Efficient Q-Learning in High Update-To-Data Ratio Reinforcement Learning [51.10866035483686]
強化学習(RL)における高アップデート・トゥ・データ(UTD)比のアルゴリズムは、サンプル効率を改善するが、高い計算コストを伴い、現実世界のスケーラビリティを制限している。
我々は、低UTDオンライントレーニングと周期的オフライン安定化フェーズを組み合わせたRLアルゴリズムである、効率的なQ-Learningのためのオフライン安定化フェーズ(SPEQ)を提案する。
これらのフェーズでは、Q-関数は固定されたリプレイバッファ上で高いUTD比で微調整され、サブ最適データの冗長な更新が削減される。
論文 参考訳(メタデータ) (2025-01-15T09:04:19Z) - Preventing Local Pitfalls in Vector Quantization via Optimal Transport [77.15924044466976]
我々はシンクホーンアルゴリズムを用いて最適な輸送問題を最適化する新しいベクトル量子化法であるOptVQを紹介する。
画像再構成タスクの実験では,OptVQが100%のコードブック利用を実現し,現在最先端のVQNを超越していることが示された。
論文 参考訳(メタデータ) (2024-12-19T18:58:14Z) - Accelerating Deep Neural Networks via Semi-Structured Activation
Sparsity [0.0]
ネットワークの機能マップにスパシティを爆発させることは、推論のレイテンシを低減する方法の1つです。
そこで本研究では,セミ構造化されたアクティベーション空間を小さなランタイム修正によって活用する手法を提案する。
当社のアプローチでは,ImageNetデータセット上のResNet18モデルに対して,最小精度が1.1%の1.25倍の速度向上を実現している。
論文 参考訳(メタデータ) (2023-09-12T22:28:53Z) - Stabilizing Backpropagation in 16-bit Neural Training with Modified Adam Optimizer [0.0]
本研究は,機械学習モデルの16ビット計算で観測された数値不安定性に関する問題に対処する。
16ビット計算におけるエプシロンの微妙な調整により、アダムの数値安定性が向上することを明らかにする。
私たちのコントリビューションは、ディープニューラルネットワークトレーニングの安定性を保証するソリューションを提供しています。
論文 参考訳(メタデータ) (2023-07-30T10:03:36Z) - A Deep Value-network Based Approach for Multi-Driver Order Dispatching [55.36656442934531]
そこで本研究では,注文発送のための深層強化学習に基づくソリューションを提案する。
DiDiの配車プラットフォーム上で大規模なオンラインA/Bテストを実施している。
その結果,CVNetは近年提案されているディスパッチ手法よりも一貫して優れていた。
論文 参考訳(メタデータ) (2021-06-08T16:27:04Z) - NROWAN-DQN: A Stable Noisy Network with Noise Reduction and Online
Weight Adjustment for Exploration [16.288831638257125]
本稿では,NROWAN-DQN,すなわちノイズリダクションとオンライン重み調整ノイズ-DQNというアルゴリズムを提案する。
本研究では,NuisyNet-DQN のノイズ低減手法を開発した。
第二に、ノイズ低減のためのオンライン重み調整戦略を設計し、安定した性能を向上し、エージェントのスコアを高くする。
論文 参考訳(メタデータ) (2020-06-19T07:10:42Z) - Meta-Reinforcement Learning for Trajectory Design in Wireless UAV
Networks [151.65541208130995]
ドローン基地局(DBS)は、要求が動的で予測不可能な地上ユーザーへのアップリンク接続を提供するために派遣される。
この場合、DBSの軌道は動的ユーザアクセス要求を満たすように適応的に調整されなければならない。
新たな環境に遭遇したDBSの軌道に適応するために,メタラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-25T20:43:59Z) - Data Freshness and Energy-Efficient UAV Navigation Optimization: A Deep
Reinforcement Learning Approach [88.45509934702913]
我々は、移動基地局(BS)が配備される複数の無人航空機(UAV)のナビゲーションポリシーを設計する。
我々は、地上BSにおけるデータの鮮度を確保するために、エネルギーや情報年齢(AoI)の制約などの異なる文脈情報を組み込んだ。
提案したトレーニングモデルを適用することで、UAV-BSに対する効果的なリアルタイム軌道ポリシーは、時間とともに観測可能なネットワーク状態をキャプチャする。
論文 参考訳(メタデータ) (2020-02-21T07:29:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。