論文の概要: Swimming Under Constraints: A Safe Reinforcement Learning Framework for Quadrupedal Bio-Inspired Propulsion
- arxiv url: http://arxiv.org/abs/2603.04073v1
- Date: Wed, 04 Mar 2026 13:47:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.89372
- Title: Swimming Under Constraints: A Safe Reinforcement Learning Framework for Quadrupedal Bio-Inspired Propulsion
- Title(参考訳): 制約下での水泳:四足歩行型バイオインスパイア推進のための安全な強化学習フレームワーク
- Authors: Xinyu Cui, Fei Han, Hang Xu, Yongcheng Zeng, Luoyang Sun, Ruizhi Zhang, Jian Zhao, Haifeng Zhang, Weikun Li, Hao Chen, Jun Wang, Dixia Fan,
- Abstract要約: バイオインスパイアされた水生推進は高い推力と操縦性を提供するが、リフトの変動のような力の不安定化を招きやすい。
本研究では,ゆらぎを最小化しながら前進推力を最大化する制約付き最適化問題として,四足歩行を定式化する。
その結果、推力効率の向上、不安定化力の低減、最先端のベースラインに比べて収束の速さが示された。
- 参考スコア(独自算出の注目度): 22.73238969153177
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bio-inspired aquatic propulsion offers high thrust and maneuverability but is prone to destabilizing forces such as lift fluctuations, which are further amplified by six-degree-of-freedom (6-DoF) fluid coupling. We formulate quadrupedal swimming as a constrained optimization problem that maximizes forward thrust while minimizing destabilizing fluctuations. Our proposed framework, Accelerated Constrained Proximal Policy Optimization with a PID-regulated Lagrange multiplier (ACPPO-PID), enforces constraints with a PID-regulated Lagrange multiplier, accelerates learning via conditional asymmetric clipping, and stabilizes updates through cycle-wise geometric aggregation. Initialized with imitation learning and refined through on-hardware towing-tank experiments, ACPPO-PID produces control policies that transfer effectively to quadrupedal free-swimming trials. Results demonstrate improved thrust efficiency, reduced destabilizing forces, and faster convergence compared with state-of-the-art baselines, underscoring the importance of constraint-aware safe RL for robust and generalizable bio-inspired locomotion in complex fluid environments.
- Abstract(参考訳): バイオインスパイアされた水生推進は高い推力と操作性を提供するが、リフトの変動のような不安定な力は6自由度(6-DoF)流体結合によってさらに増幅される。
本研究では,ゆらぎを最小化しながら前進推力を最大化する制約付き最適化問題として,四足歩行を定式化する。
提案フレームワークは, PID制御ラグランジュ乗算器(ACPPO-PID)を用いて, PID制御ラグランジュ乗算器による制約を強制し, 条件付き非対称クリッピングによる学習を加速し, サイクルワイド幾何的集計による更新を安定化する。
ACPPO-PIDは、模倣学習によって初期化され、オンハードウェアの曳航式実験を通じて洗練され、四足歩行試験に効果的に移行する制御ポリシーを生成する。
その結果, 推力効率の向上, 不安定化力の低減, 最先端のベースラインよりも早く収束できることが示され, 複雑な流体環境下でのバイオインスパイアされたロコモーションに対する制約認識型安全なRLの重要性が強調された。
関連論文リスト
- Reinforcement Learning for Fast and Robust Longitudinal Qubit Readout [13.734433692881305]
我々は長手結合波形を最適化する強化学習フレームワークを開発した。
固定された短い読み出し時には、最適化されたパルスは制約飽和フラットトッププロトコルに収束する。
このプロトコルは大幅な性能向上を実現し、解釈可能な飽和状態と保持状態のメカニズムによって制御されるスムーズなハードウェア互換の波形を得る。
論文 参考訳(メタデータ) (2026-03-18T01:27:09Z) - Sim-to-reality adaptation for Deep Reinforcement Learning applied to an underwater docking application [0.0]
Deep Reinforcement Learning (DRL)は、自律的な水中ドッキングのための従来の制御方法に代わる堅牢な代替手段を提供する。
本稿では,高忠実なディジタル双生児環境を活用することで,ジローナ自律水中車両(AUV)を用いた自律ドッキングの体系的アプローチを提案する。
論文 参考訳(メタデータ) (2026-03-12T15:01:25Z) - Diffusion Controller: Framework, Algorithms and Parameterization [54.82539154511621]
本稿では,逆拡散サンプリングを(一般化された)線形解法マルコフ決定過程における状態のみの制御として活用する統一的な制御理論的視点を提案する。
このフレームワークでは、制御はトレーニング済みのリバースタイムのトランジションカーネルを再重み付けし、端末の目的と$f$分割コストのバランスをとる。
安定拡散v1.4の実験では、選好調整の勝利率が一貫した上昇を示し、品質効率のトレードオフを改善した。
論文 参考訳(メタデータ) (2026-03-07T01:49:59Z) - Stabilizing Policy Optimization via Logits Convexity [59.242732612484474]
モデルロジットに対する教師付き微調整損失の凸性は、安定したトレーニングを可能にする上で重要な役割を担っていることを示す。
そこで本研究では,ロジッツ・コンベックス最適化(Logits Convex Optimization, LCO)を提案する。
論文 参考訳(メタデータ) (2026-03-01T07:40:12Z) - Astro: Activation-guided Structured Regularization for Outlier-Robust LLM Post-Training Quantization [56.5199302532159]
本稿では, アクティベーション誘導型構造正規化フレームワークを提案する。
Astroは内在的に頑丈な重量を積極的に再構成し、高マグニチュードの活性化に対応する重量の降圧を積極的に抑制する。
Astroは競争力が高く、特にLLaMA-2-7Bでは、量子化時間の1/3近くを持つ複雑な学習ベースの回転法よりも優れた性能を達成している。
論文 参考訳(メタデータ) (2026-02-07T15:50:18Z) - Not All Preferences Are Created Equal: Stability-Aware and Gradient-Efficient Alignment for Reasoning Models [52.48582333951919]
ポリシー更新の信号対雑音比を最大化することにより、アライメントの信頼性を高めるために設計された動的フレームワークを提案する。
SAGE(Stability-Aware Gradient Efficiency)は、モデル能力に基づいて候補プールをリフレッシュする粗いきめ細かいカリキュラムメカニズムを統合する。
複数の数学的推論ベンチマークの実験により、SAGEは収束を著しく加速し、静的ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2026-02-01T12:56:10Z) - Hypersonic Flow Control: Generalized Deep Reinforcement Learning for Hypersonic Intake Unstart Control under Uncertainty [0.34376560669160394]
アンスタートはマッハ5以上での信頼性の高い空気呼吸推進への大きな挑戦である。
正準2次元超音速インレットにおいて,マッハ5とレイノルズ5倍の106$でアンスタートを制御する戦略を示す。
その結果,実運用上の不確実性の下でのリアルタイム超音速流制御におけるデータ駆動型手法が確立された。
論文 参考訳(メタデータ) (2026-01-27T22:38:52Z) - Tracking Drift: Variation-Aware Entropy Scheduling for Non-Stationary Reinforcement Learning [15.503982614515655]
AES(Adaptive Entropy Scheduling)を提案し、トレーニング中に観測可能ドリフトプロキシを用いてエントロピー係数/温度をオンラインに適応的に調整する。
AESはドリフトによる性能劣化率を著しく低減し、急激な変化後の回復を加速する。
論文 参考訳(メタデータ) (2026-01-27T13:58:11Z) - BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z) - Iterative Refinement of Flow Policies in Probability Space for Online Reinforcement Learning [56.47948583452555]
固定ステップのEulerスキームによるフローマッチング推論プロセスの離散化は,最適輸送から変化するJordan-Kinderlehrer-Otto原理と整合する,というキーインサイトに基づいて,SWFP(Stepwise Flow Policy)フレームワークを紹介した。
SWFPは、大域的な流れを、プロキシメート分布間の小さな漸進的な変換の列に分解する。
この分解は、小さな流れブロックのカスケードを介して事前訓練された流れを微調整する効率的なアルゴリズムを導き、大きな利点をもたらす。
論文 参考訳(メタデータ) (2025-10-17T07:43:51Z) - Distributed Neurodynamics-Based Backstepping Optimal Control for Robust
Constrained Consensus of Underactuated Underwater Vehicles Fleet [16.17376845767656]
本稿では,新しいコンセンサスに基づく最適コーディネーションプロトコルとロバストコントローラを開発する。
UUVの艦隊の最適な編成追跡が達成され、制約が満たされる。
全体的なUUVの形成システムの安定性は、UUVのすべての状態が、未知の乱れの存在下で一様に束縛されていることを保証するために確立されている。
論文 参考訳(メタデータ) (2023-08-18T06:04:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。