論文の概要: Recurrent Auto-Encoders for Enhanced Deep Reinforcement Learning in Wilderness Search and Rescue Planning
- arxiv url: http://arxiv.org/abs/2502.19356v1
- Date: Wed, 26 Feb 2025 17:54:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:55:26.088684
- Title: Recurrent Auto-Encoders for Enhanced Deep Reinforcement Learning in Wilderness Search and Rescue Planning
- Title(参考訳): 荒野探索・救助計画における強化された深層強化学習のための繰り返しオートエンコーダ
- Authors: Jan-Hendrik Ewers, David Anderson, Douglas Thomson,
- Abstract要約: 荒野の捜索と救助活動は、しばしば広大な景観で行われている。
問題は完全なカバレッジではなく、利用可能な限られた時間に収集された情報の最大化の1つだ。
本稿では,再帰型オートエンコーダと深部強化学習を組み合わせることで,探索問題のより効率的な解法を提案する。
- 参考スコア(独自算出の注目度): 0.294944680995069
- License:
- Abstract: Wilderness search and rescue operations are often carried out over vast landscapes. The search efforts, however, must be undertaken in minimum time to maximize the chance of survival of the victim. Whilst the advent of cheap multicopters in recent years has changed the way search operations are handled, it has not solved the challenges of the massive areas at hand. The problem therefore is not one of complete coverage, but one of maximizing the information gathered in the limited time available. In this work we propose that a combination of a recurrent autoencoder and deep reinforcement learning is a more efficient solution to the search problem than previous pure deep reinforcement learning or optimisation approaches. The autoencoder training paradigm efficiently maximizes the information throughput of the encoder into its latent space representation which deep reinforcement learning is primed to leverage. Without the overhead of independently solving the problem that the recurrent autoencoder is designed for, it is more efficient in learning the control task. We further implement three additional architectures for a comprehensive comparison of the main proposed architecture. Similarly, we apply both soft actor-critic and proximal policy optimisation to provide an insight into the performance of both in a highly non-linear and complex application with a large observation Results show that the proposed architecture is vastly superior to the benchmarks, with soft actor-critic achieving the best performance. This model further outperformed work from the literature whilst having below a fifth of the total learnable parameters and training in a quarter of the time.
- Abstract(参考訳): 荒野の捜索と救助活動は、しばしば広大な景観で行われている。
しかし、被害者の生存率を最大化するために、最小限の時間で探索を行わなければならない。
近年の安価なマルチコプターの出現は、検索操作の仕方を変えつつあるが、現在進行中の大規模領域の課題は解決していない。
したがって、問題は完全なカバレッジの1つではなく、利用可能な限られた時間に収集された情報の最大化の1つである。
本研究では,再帰型自己エンコーダと深部強化学習の組み合わせが,従来の純粋深部強化学習や最適化手法よりも効率的な探索法であることを示す。
自己エンコーダ訓練パラダイムは、エンコーダの情報スループットを、深層強化学習を生かした潜在空間表現に効率的に最大化する。
リカレントオートエンコーダが設計する問題を独立して解決するオーバーヘッドがなければ、制御タスクの学習がより効率的になる。
提案アーキテクチャを網羅的に比較するために,さらに3つのアーキテクチャを実装した。
同様に、高い非線形かつ複雑なアプリケーションにおいて、提案アーキテクチャがベンチマークよりもはるかに優れていることを示し、ソフトアクタクリティカルと近位ポリシーの両方を最適化して、高い性能を達成する。
このモデルは、学習可能な全パラメータの5分の1以下であり、その4分の1の時間で、文学作品よりも優れていた。
関連論文リスト
- A Fresh Take on Stale Embeddings: Improving Dense Retriever Training with Corrector Networks [81.2624272756733]
密集検索では、ディープエンコーダは入力とターゲットの両方に埋め込みを提供する。
我々は、古いキャッシュされたターゲット埋め込みを調整できる小さなパラメトリック補正ネットワークを訓練する。
私たちのアプローチは、トレーニング中にターゲット埋め込み更新が行われなくても、最先端の結果と一致します。
論文 参考訳(メタデータ) (2024-09-03T13:29:13Z) - Self-STORM: Deep Unrolled Self-Supervised Learning for Super-Resolution Microscopy [55.2480439325792]
我々は、シーケンス固有のモデルベースのオートエンコーダをトレーニングすることで、そのようなデータの必要性を軽減する、深層無学習の自己教師付き学習を導入する。
提案手法は, 監視対象の性能を超過する。
論文 参考訳(メタデータ) (2024-03-25T17:40:32Z) - Masked Autoencoders Are Robust Neural Architecture Search Learners [14.965550562292476]
本研究では,Masked Autoencoders (MAE) に基づく新しいNASフレームワークを提案する。
教師あり学習対象を画像再構成タスクに置き換えることで,ネットワークアーキテクチャの堅牢な発見を可能にする。
論文 参考訳(メタデータ) (2023-11-20T13:45:21Z) - Learning to Optimize Permutation Flow Shop Scheduling via Graph-based
Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。
我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。
我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文 参考訳(メタデータ) (2022-10-31T09:46:26Z) - Segmentation-guided Domain Adaptation for Efficient Depth Completion [3.441021278275805]
本稿では,vgg05型CNNアーキテクチャと半教師付きドメイン適応手法に基づく効率的な深度補完モデルを提案する。
空間的コヒーレンスを高めるため,情報ソースとしてセグメンテーションを用いた学習プロセスを導出する。
提案手法は,計算フットプリントを著しく低くしながら,従来手法の効率的かつ低パラメータ状態を改善する。
論文 参考訳(メタデータ) (2022-10-14T13:01:25Z) - Reinforcement Learning for Branch-and-Bound Optimisation using
Retrospective Trajectories [72.15369769265398]
機械学習は分岐のための有望なパラダイムとして登場した。
分岐のための単純かつ効果的なRLアプローチであるレトロ分岐を提案する。
我々は現在最先端のRL分岐アルゴリズムを3~5倍に上回り、500の制約と1000の変数を持つMILP上での最高のILメソッドの性能の20%以内である。
論文 参考訳(メタデータ) (2022-05-28T06:08:07Z) - Combining Reinforcement Learning and Optimal Transport for the Traveling
Salesman Problem [18.735056206844202]
我々は,従来の自己回帰的アプローチよりもはるかに高速に,監督や推論なしに学習できるモデルを構築することができることを示す。
また、ディープラーニングモデルに最適なトランスポートアルゴリズムを組み込むことで、エンドツーエンドのトレーニング中に割り当て制約を強制する利点を実証的に評価する。
論文 参考訳(メタデータ) (2022-03-02T07:21:56Z) - Deep Reinforcement Learning for Combinatorial Optimization: Covering
Salesman Problems [4.692304496312442]
本稿では,カバーセールスマン問題 (CSP) を大まかに解くための新しい深層学習手法を提案する。
このアプローチでは、CSPの都市位置を入力として、ディープニューラルネットワークモデルがソリューションを直接出力するように設計されている。
指導なしに深層強化学習を用いて訓練される。
論文 参考訳(メタデータ) (2021-02-11T07:25:04Z) - AutoOD: Automated Outlier Detection via Curiosity-guided Search and
Self-imitation Learning [72.99415402575886]
外乱検出は重要なデータマイニングの課題であり、多くの実用的応用がある。
本稿では,最適なニューラルネットワークモデルを探すことを目的とした自動外乱検出フレームワークであるAutoODを提案する。
さまざまな実世界のベンチマークデータセットに対する実験結果から、AutoODが特定したディープモデルが最高のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2020-06-19T18:57:51Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。