論文の概要: Task-specific Subnetwork Discovery in Reinforcement Learning for Autonomous Underwater Navigation
- arxiv url: http://arxiv.org/abs/2604.21640v1
- Date: Thu, 23 Apr 2026 12:55:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.505435
- Title: Task-specific Subnetwork Discovery in Reinforcement Learning for Autonomous Underwater Navigation
- Title(参考訳): 自律型水中ナビゲーションのための強化学習におけるタスク特化サブネットワーク発見
- Authors: Yi-Ling Liu, Melvin Laux, Mariela De Lucas Alvarez, Frank Kirchner, Rebecca Adam,
- Abstract要約: 本研究では,水中ナビゲーションのためのHoloOceanシミュレータにおいて,事前訓練されたマルチタスク強化学習ネットワークの内部構造を解析した。
関連タスクを用いたマルチタスク強化学習環境において、ネットワークはタスクの区別に約1.5%の重みしか使用していないことがわかった。
- 参考スコア(独自算出の注目度): 4.692174333076031
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous underwater vehicles are required to perform multiple tasks adaptively and in an explainable manner under dynamic, uncertain conditions and limited sensing, challenges that classical controllers struggle to address. This demands robust, generalizable, and inherently interpretable control policies for reliable long-term monitoring. Reinforcement learning, particularly multi-task RL, overcomes these limitations by leveraging shared representations to enable efficient adaptation across tasks and environments. However, while such policies show promising results in simulation and controlled experiments, they yet remain opaque and offer limited insight into the agent's internal decision-making, creating gaps in transparency, trust, and safety that hinder real-world deployment. The internal policy structure and task-specific specialization remain poorly understood. To address these gaps, we analyze the internal structure of a pretrained multi-task reinforcement learning network in the HoloOcean simulator for underwater navigation by identifying and comparing task-specific subnetworks responsible for navigating toward different species. We find that in a contextual multi-task reinforcement learning setting with related tasks, the network uses only about 1.5% of its weights to differentiate between tasks. Of these, approximately 85% connect the context-variable nodes in the input layer to the next hidden layer, highlighting the importance of context variables in such settings. Our approach provides insights into shared and specialized network components, useful for efficient model editing, transfer learning, and continual learning for underwater monitoring through a contextual multi-task reinforcement learning method.
- Abstract(参考訳): 自律型水中車両は、動的で不確実な条件と制限された感覚の下で複数のタスクを適応的かつ説明可能な方法で実行する必要がある。
これにより、信頼性のある長期監視のための堅牢で、一般化可能で、本質的に解釈可能な制御ポリシーが要求される。
強化学習、特にマルチタスクRLは、タスクや環境間の効率的な適応を可能にするために共有表現を活用することで、これらの制限を克服する。
しかし、このような政策はシミュレーションと制御実験において有望な結果を示すが、それでも不透明であり、エージェントの内部決定について限られた洞察を与え、透明性、信頼、安全性のギャップを生み出し、現実世界の展開を妨げている。
内部の政策構造とタスク固有の特殊化はいまだに理解されていない。
これらのギャップに対処するため,HoloOceanシミュレーターにおいて,異なる種に向かって航行するタスク固有のサブネットを同定し,比較することにより,事前訓練したマルチタスク強化学習ネットワークの内部構造を解析した。
関連タスクを用いたマルチタスク強化学習環境において、ネットワークはタスクの区別に約1.5%の重みしか使用していないことがわかった。
これらのうち、約85%は入力層内のコンテキスト変数ノードを次の隠れ層に接続し、そのような設定におけるコンテキスト変数の重要性を強調している。
提案手法は, 効率的なモデル編集, 伝達学習, 連続学習に有用であり, 文脈的マルチタスク強化学習手法を用いて水中モニタリングを行う。
関連論文リスト
- Contextual Multi-Task Reinforcement Learning for Autonomous Reef Monitoring [4.216733346030022]
我々は、未知のダイナミクスやタスクのバリエーションを補うために、データ駆動強化学習アプローチを採用する。
文脈的マルチタスク強化学習が、堅牢で汎用的な制御ポリシーを効率的に学習できるかどうかを評価する。
論文 参考訳(メタデータ) (2026-04-14T12:16:56Z) - Learning with Preserving for Continual Multitask Learning [4.847042727427382]
タスク出力の保存から共有表現空間の維持に焦点を移す新しいフレームワークであるLawP(Learning with Preserving)を紹介した。
LwPは破滅的な忘れを緩和するだけでなく、CMTLタスクにおける最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-11-11T22:23:20Z) - ThanoRA: Task Heterogeneity-Aware Multi-Task Low-Rank Adaptation [96.86211867758652]
Low-Rank Adaptation (LoRA) は、基礎モデルの下流の微調整に広く採用されている。
タスク不均一性を考慮したマルチタスク低ランク適応フレームワークであるTanoRAを提案する。
論文 参考訳(メタデータ) (2025-05-24T11:01:45Z) - SwitchMT: An Adaptive Context Switching Methodology for Scalable Multi-Task Learning in Intelligent Autonomous Agents [5.343921650701002]
自律エージェントにおけるRLに基づくマルチタスク学習のための適応型タスクスイッチング手法を提案する。
SwitchMTは、アクティブなデンドライトとデュエル構造を備えたDeep Spiking Q-Networkを使用して、特別なサブネットワークを作成する。
最先端の手法に比べてマルチタスク学習において優れた性能を発揮する。
論文 参考訳(メタデータ) (2025-04-18T08:12:59Z) - Hierarchical Subspaces of Policies for Continual Offline Reinforcement Learning [19.463863037999054]
我々は,学習エージェントが獲得したスキルセットを維持しながら,新たなタスクに継続的に適応しなければならない継続的強化学習の仕組みを考察する。
オフラインデータからナビゲーション設定を継続学習するために設計された,新しい階層型フレームワークであるHiSPOを紹介する。
本研究では,MuJoCo迷路環境と複雑なゲームライクなナビゲーションシミュレーションの両方において,本手法の有効性を実験的に検証した。
論文 参考訳(メタデータ) (2024-12-19T14:00:03Z) - Sparsely Activated Mixture-of-Experts are Robust Multi-Task Learners [67.5865966762559]
本研究では,Mixture-of-Experts (MoE) がマルチタスク学習を改善するかを検討した。
タスク認識ゲーティング関数を考案し、異なるタスクから専門の専門家にサンプルをルーティングする。
これにより、多数のパラメータを持つ疎活性化マルチタスクモデルが得られるが、高密度モデルの計算コストは同じである。
論文 参考訳(メタデータ) (2022-04-16T00:56:12Z) - Combining Modular Skills in Multitask Learning [149.8001096811708]
モジュラー設計は、ニューラルネットワークが様々な知識の面をアンタングルして再結合し、新しいタスクにより系統的に一般化することを奨励する。
この研究では、各タスクは(潜在的に小さな)インベントリから潜在的な離散スキルのサブセットと関連付けられていると仮定する。
ネットワークのモジュラー設計により、強化学習におけるサンプル効率が著しく向上し、教師あり学習における数ショットの一般化が図られる。
論文 参考訳(メタデータ) (2022-02-28T16:07:19Z) - Multi-Task Learning with Sequence-Conditioned Transporter Networks [67.57293592529517]
シーケンスコンディショニングと重み付きサンプリングのレンズによるマルチタスク学習の実現を目指している。
合成タスクを対象とした新しいベンチマークであるMultiRavensを提案する。
次に,視覚に基づくエンドツーエンドシステムアーキテクチャであるSequence-Conditioned Transporter Networksを提案する。
論文 参考訳(メタデータ) (2021-09-15T21:19:11Z) - Weakly-Supervised Reinforcement Learning for Controllable Behavior [126.04932929741538]
強化学習(Reinforcement Learning、RL)は、タスクを解決するために行動を取るための学習のための強力なフレームワークである。
多くの設定において、エージェントは、現在解決するよう求められている単一のタスクに対して、不可能なほど大きなタスク空間を放棄しなければならない。
我々は,この意味論的意味のあるタスクのサブスペースを,非意味的な「チャフ」タスクの巨大な空間から自動的に切り離すために,弱い監督を利用するフレームワークを導入する。
論文 参考訳(メタデータ) (2020-04-06T17:50:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。