論文の概要: Contextual Multi-Task Reinforcement Learning for Autonomous Reef Monitoring
- arxiv url: http://arxiv.org/abs/2604.12645v1
- Date: Tue, 14 Apr 2026 12:16:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.429911
- Title: Contextual Multi-Task Reinforcement Learning for Autonomous Reef Monitoring
- Title(参考訳): 自動リーフモニタリングのためのコンテキストマルチタスク強化学習
- Authors: Melvin Laux, Yi-Ling Liu, Rina Alo, Sören Töpper, Mariela De Lucas Alvarez, Frank Kirchner, Rebecca Adam,
- Abstract要約: 我々は、未知のダイナミクスやタスクのバリエーションを補うために、データ駆動強化学習アプローチを採用する。
文脈的マルチタスク強化学習が、堅牢で汎用的な制御ポリシーを効率的に学習できるかどうかを評価する。
- 参考スコア(独自算出の注目度): 4.216733346030022
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although autonomous underwater vehicles promise the capability of marine ecosystem monitoring, their deployment is fundamentally limited by the difficulty of controlling vehicles under highly uncertain and non-stationary underwater dynamics. To address these challenges, we employ a data-driven reinforcement learning approach to compensate for unknown dynamics and task variations.Traditional single-task reinforcement learning has a tendency to overfit the training environment, thus, limit the long-term usefulness of the learnt policy. Hence, we propose to use a contextual multi-task reinforcement learning paradigm instead, allowing us to learn controllers that can be reused for various tasks, e.g., detecting oysters in one reef and detecting corals in another. We evaluate whether contextual multi-task reinforcement learning can efficiently learn robust and generalisable control policies for autonomous underwater reef monitoring. We train a single context-dependent policy that is able to solve multiple related monitoring tasks in a simulated reef environment in HoloOcean. In our experiments, we empirically evaluate the contextual policies regarding sample-efficiency, zero-shot generalisation to unseen tasks, and robustness to varying water currents. By utilising multi-task reinforcement learning, we aim to improve the training effectiveness, as well as the reusability of learnt policies to take a step towards more sustainable procedures in autonomous reef monitoring.
- Abstract(参考訳): 自律型水中車両は海洋生態系モニタリングの能力を約束するが、その展開は、極めて不確実で非定常的な水中力学の下での車両の制御が困難であることにより、基本的に制限されている。
これらの課題に対処するために、未知のダイナミクスやタスクの変動を補うために、データ駆動型強化学習アプローチを採用し、訓練環境に過度に適合する傾向があり、学習ポリシーの長期的有用性を制限する。
そこで,本稿では,コンテキスト型マルチタスク強化学習パラダイムを用いて,様々なタスクに再利用可能なコントローラを学習し,カキを検知し,サンゴを検知する手法を提案する。
我々は,自律型水中リーフモニタリングにおいて,コンテキスト型マルチタスク強化学習が堅牢で汎用的な制御ポリシーを効果的に学習できるかどうかを評価する。
我々は,HoloOceanのシミュレートされたリーフ環境において,複数の関連するモニタリングタスクを解決可能な,コンテキスト依存の単一のポリシをトレーニングする。
実験では, サンプル効率, ゼロショットのタスクへの一般化, 各種水流に対する堅牢性について, 文脈的政策を実証的に評価した。
マルチタスク強化学習の活用により、自律礁モニタリングにおけるより持続可能な手順に向けた学習政策の再利用性の向上とともに、トレーニング効率の向上を目指す。
関連論文リスト
- Hierarchical Subspaces of Policies for Continual Offline Reinforcement Learning [19.463863037999054]
我々は,学習エージェントが獲得したスキルセットを維持しながら,新たなタスクに継続的に適応しなければならない継続的強化学習の仕組みを考察する。
オフラインデータからナビゲーション設定を継続学習するために設計された,新しい階層型フレームワークであるHiSPOを紹介する。
本研究では,MuJoCo迷路環境と複雑なゲームライクなナビゲーションシミュレーションの両方において,本手法の有効性を実験的に検証した。
論文 参考訳(メタデータ) (2024-12-19T14:00:03Z) - MILES: Making Imitation Learning Easy with Self-Supervision [12.314942459360605]
MILESは完全に自律的で自己管理型のデータ収集パラダイムである。
MILESは,1つの実演と1つの環境リセットから,効率的なポリシー学習を可能にする。
論文 参考訳(メタデータ) (2024-10-25T17:06:50Z) - An Imitative Reinforcement Learning Framework for Pursuit-Lock-Launch Missions [9.002353110876529]
無人戦闘空母(UCAV) 空中戦において、WVRの戦闘は決定的な役割を担っている。
本稿では,自律的な探索を可能にしつつ,専門家のデータを効果的に活用する,新しい擬似強化学習フレームワークを提案する。
我々のフレームワークは、複雑な空中戦闘タスクにおける臨界知識を迅速に習得し、100%の成功率を達成し、優れた堅牢性を示すことができる。
論文 参考訳(メタデータ) (2024-06-17T13:59:52Z) - Aquatic Navigation: A Challenging Benchmark for Deep Reinforcement Learning [53.3760591018817]
ゲームエンジンとDeep Reinforcement Learningの統合の最近の進歩を利用して,水上ナビゲーションのための新しいベンチマーク環境を提案する。
具体的には、最も広く受け入れられているアルゴリズムの一つであるPPOに着目し、先進的なトレーニング手法を提案する。
実験により,これらの成分をうまく組み合わせることで,有望な結果が得られることが示された。
論文 参考訳(メタデータ) (2024-05-30T23:20:23Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - Benchmarking Safe Deep Reinforcement Learning in Aquatic Navigation [78.17108227614928]
本研究では,水文ナビゲーションに着目した安全強化学習のためのベンチマーク環境を提案する。
価値に基づく政策段階の深層強化学習(DRL)について考察する。
また,学習したモデルの振る舞いを所望の特性の集合上で検証する検証戦略を提案する。
論文 参考訳(メタデータ) (2021-12-16T16:53:56Z) - Simplifying Deep Reinforcement Learning via Self-Supervision [51.2400839966489]
自己改善強化学習(Self-Supervised Reinforcement Learning, SSRL)は、純粋に監督された損失を伴うポリシーを最適化する単純なアルゴリズムである。
SSRLは、より安定した性能と実行時間の少ない現代アルゴリズムと驚くほど競合することを示す。
論文 参考訳(メタデータ) (2021-06-10T06:29:59Z) - Coverage as a Principle for Discovering Transferable Behavior in
Reinforcement Learning [16.12658895065585]
私たちは、表現だけでは挑戦的な領域での効率的な転送には不十分であり、行動を通じて知識を伝達する方法を探ります。
事前訓練された政策の行動は、手作業(探索)の問題解決や、問題(探索)の解決に有用なデータ収集に利用することができる。
論文 参考訳(メタデータ) (2021-02-24T16:51:02Z) - Meta-Reinforcement Learning Robust to Distributional Shift via Model
Identification and Experience Relabeling [126.69933134648541]
本稿では,テスト時にアウト・オブ・ディストリビューション・タスクに直面した場合に,効率よく外挿できるメタ強化学習アルゴリズムを提案する。
我々の手法は単純な洞察に基づいており、動的モデルが非政治データに効率的かつ一貫して適応可能であることを認識している。
論文 参考訳(メタデータ) (2020-06-12T13:34:46Z) - Weakly-Supervised Reinforcement Learning for Controllable Behavior [126.04932929741538]
強化学習(Reinforcement Learning、RL)は、タスクを解決するために行動を取るための学習のための強力なフレームワークである。
多くの設定において、エージェントは、現在解決するよう求められている単一のタスクに対して、不可能なほど大きなタスク空間を放棄しなければならない。
我々は,この意味論的意味のあるタスクのサブスペースを,非意味的な「チャフ」タスクの巨大な空間から自動的に切り離すために,弱い監督を利用するフレームワークを導入する。
論文 参考訳(メタデータ) (2020-04-06T17:50:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。