論文の概要: Never too Prim to Swim: An LLM-Enhanced RL-based Adaptive S-Surface Controller for AUVs under Extreme Sea Conditions
- arxiv url: http://arxiv.org/abs/2503.00527v1
- Date: Sat, 01 Mar 2025 15:01:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:16:07.744350
- Title: Never too Prim to Swim: An LLM-Enhanced RL-based Adaptive S-Surface Controller for AUVs under Extreme Sea Conditions
- Title(参考訳): LLM-Enhanced RL-based Adaptive S-Surface Controller for AUVs under Extreme Sea Conditions
- Authors: Guanwen Xie, Jingzehua Xu, Yimian Ding, Zhi Zhang, Shuai Zhang, Yi Li,
- Abstract要約: 大規模言語モデル(LLM)強化学習(RL)に基づくAUV用適応S面制御
マルチモーダルおよび構造化された明示的なタスクフィードバックを用いることで、LLMは共同調整を可能にし、複数の目的をバランスさせ、タスク指向のパフォーマンスと適応性を高める。
提案したコントローラでは、RLポリシは、S面コントローラが制御信号に変換するタスク指向の高レベルコマンドを出力する、上層タスクに重点を置いている。
- 参考スコア(独自算出の注目度): 9.713618537140587
- License:
- Abstract: The adaptivity and maneuvering capabilities of Autonomous Underwater Vehicles (AUVs) have drawn significant attention in oceanic research, due to the unpredictable disturbances and strong coupling among the AUV's degrees of freedom. In this paper, we developed large language model (LLM)-enhanced reinforcement learning (RL)-based adaptive S-surface controller for AUVs. Specifically, LLMs are introduced for the joint optimization of controller parameters and reward functions in RL training. Using multi-modal and structured explicit task feedback, LLMs enable joint adjustments, balance multiple objectives, and enhance task-oriented performance and adaptability. In the proposed controller, the RL policy focuses on upper-level tasks, outputting task-oriented high-level commands that the S-surface controller then converts into control signals, ensuring cancellation of nonlinear effects and unpredictable external disturbances in extreme sea conditions. Under extreme sea conditions involving complex terrain, waves, and currents, the proposed controller demonstrates superior performance and adaptability in high-level tasks such as underwater target tracking and data collection, outperforming traditional PID and SMC controllers.
- Abstract(参考訳): 自律型水中車両(AUV)の適応性と操縦能力は、予測不可能な混乱とAUVの自由度間の強い結合により、海洋研究において大きな注目を集めている。
本稿では,大規模言語モデル(LLM)を用いたAUVのためのRLベースの適応S面制御システムを開発した。
具体的には、RLトレーニングにおける制御パラメータと報酬関数の協調最適化にLLMを導入している。
マルチモーダルおよび構造化された明示的なタスクフィードバックを用いることで、LLMは共同調整を可能にし、複数の目的をバランスさせ、タスク指向のパフォーマンスと適応性を高める。
提案した制御器では,S面制御器が制御信号に変換するタスク指向の高レベルコマンドを出力し,非線形効果のキャンセルと極端海洋条件下での予測不可能な外乱を確実にする。
複雑な地形, 波浪, 電流を含む極端な海洋条件下では, 従来のPIDやSMCよりも優れた性能と, 水中目標追跡やデータ収集といった高レベルタスクにおける適応性を示す。
関連論文リスト
- Integrated Sensing and Communications for Low-Altitude Economy: A Deep Reinforcement Learning Approach [20.36806314683902]
低高度経済(LAE)のための統合センシング・通信(ISAC)システムについて検討する。
所定の飛行期間における通信総和レートは、GBSとUAVの軌道でのビームフォーミングを共同最適化することにより最大化する。
本稿では, 深部強化学習(DRL)技術を活用して, 深部LAE-ISAC(Deep LAE-ISAC)と呼ばれる新しいLEE指向ISAC方式を提案する。
論文 参考訳(メタデータ) (2024-12-05T11:12:46Z) - Function Approximation for Reinforcement Learning Controller for Energy from Spread Waves [69.9104427437916]
マルチジェネレータ・ウェーブ・エナジー・コンバータ(WEC)は、スプレッド・ウェーブと呼ばれる異なる方向から来る複数の同時波を処理しなければならない。
これらの複雑な装置は、エネルギー捕獲効率、維持を制限する構造的ストレスの低減、高波に対する積極的な保護という複数の目的を持つコントローラを必要とする。
本稿では,システム力学のシーケンシャルな性質をモデル化する上で,ポリシーと批判ネットワークの異なる機能近似について検討する。
論文 参考訳(メタデータ) (2024-04-17T02:04:10Z) - Sim-to-Real Transfer of Adaptive Control Parameters for AUV
Stabilization under Current Disturbance [1.099532646524593]
本稿では,最大エントロピー深層強化学習フレームワークを古典的なモデルベース制御アーキテクチャと組み合わせ,適応制御系を定式化する新しい手法を提案する。
本フレームワークでは,バイオインスパイアされた体験再生機構,拡張されたドメインランダム化手法,物理プラットフォーム上で実行される評価プロトコルなどを含むSim-to-Real転送戦略を導入する。
実験により,AUVの準最適モデルから有能なポリシを効果的に学習し,実車への移動時の制御性能を3倍に向上することを示した。
論文 参考訳(メタデータ) (2023-10-17T08:46:56Z) - Hybrid Reinforcement Learning for Optimizing Pump Sustainability in
Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。
我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。
進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文 参考訳(メタデータ) (2023-10-13T21:26:16Z) - Distributed Neurodynamics-Based Backstepping Optimal Control for Robust
Constrained Consensus of Underactuated Underwater Vehicles Fleet [16.17376845767656]
本稿では,新しいコンセンサスに基づく最適コーディネーションプロトコルとロバストコントローラを開発する。
UUVの艦隊の最適な編成追跡が達成され、制約が満たされる。
全体的なUUVの形成システムの安定性は、UUVのすべての状態が、未知の乱れの存在下で一様に束縛されていることを保証するために確立されている。
論文 参考訳(メタデータ) (2023-08-18T06:04:12Z) - Enhancing AUV Autonomy With Model Predictive Path Integral Control [9.800697959791544]
AUV制御のためのモデル予測経路積分制御(MPPI)の実現可能性について検討する。
我々はAUVの非線形モデルを用いてMPPIのサンプルを伝搬し、制御動作をリアルタイムで計算する。
論文 参考訳(メタデータ) (2023-08-10T12:55:57Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - Real-Time Model-Free Deep Reinforcement Learning for Force Control of a
Series Elastic Actuator [56.11574814802912]
最先端のロボットアプリケーションは、歩行、揚力、操作などの複雑なタスクを達成するために、閉ループ力制御を備えた連続弾性アクチュエータ(SEAs)を使用する。
モデルフリーPID制御法はSEAの非線形性により不安定になりやすい。
深層強化学習は連続制御タスクに有効なモデルレス手法であることが証明されている。
論文 参考訳(メタデータ) (2023-04-11T00:51:47Z) - Skip Training for Multi-Agent Reinforcement Learning Controller for
Industrial Wave Energy Converters [94.84709449845352]
近年のウェーブ・エナジー・コンバータ(WEC)は、発電を最大化するために複数の脚と発電機を備えている。
従来のコントローラは複雑な波のパターンを捕捉する制限を示しており、コントローラはエネルギー捕獲を効率的に最大化する必要がある。
本稿では,従来のスプリングダンパよりも優れたマルチエージェント強化学習コントローラ(MARL)を提案する。
論文 参考訳(メタデータ) (2022-09-13T00:20:31Z) - Data-driven controllers and the need for perception systems in
underwater manipulation [4.060731229044571]
UVMSのモデリングは、非常に非線形なダイナミクスのために複雑でコストがかかるプロセスである。
これは、オブジェクトの操作が必要なタスクで増大します。
未知のペイロードを扱うUVMSの制御戦略を導入する。
論文 参考訳(メタデータ) (2021-09-21T17:25:10Z) - Optimization-driven Deep Reinforcement Learning for Robust Beamforming
in IRS-assisted Wireless Communications [54.610318402371185]
Intelligent Reflecting Surface (IRS)は、マルチアンテナアクセスポイント(AP)から受信機へのダウンリンク情報伝達を支援する有望な技術である。
我々は、APのアクティブビームフォーミングとIRSのパッシブビームフォーミングを共同最適化することで、APの送信電力を最小化する。
過去の経験からビームフォーミング戦略に適応できる深層強化学習(DRL)手法を提案する。
論文 参考訳(メタデータ) (2020-05-25T01:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。