論文の概要: DiSA-IQL: Offline Reinforcement Learning for Robust Soft Robot Control under Distribution Shifts
- arxiv url: http://arxiv.org/abs/2510.00358v1
- Date: Tue, 30 Sep 2025 23:53:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.295324
- Title: DiSA-IQL: Offline Reinforcement Learning for Robust Soft Robot Control under Distribution Shifts
- Title(参考訳): DiSA-IQL:分散シフト下でのロバストなソフトロボット制御のためのオフライン強化学習
- Authors: Linjin He, Xinda Qi, Dong Chen, Zhaojian Li, Xiaobo Tan,
- Abstract要約: IQLの拡張であるDiSA-IQL(Distribution-Shift-Aware Implicit Q-Learning)を提案する。
シミュレーションの結果、DiSA-IQLは、ビヘイビア・クローン(BC)、保守的Qラーニング(CQL)、バニラ・IQLなど、ベースラインモデルよりも一貫して優れています。
- 参考スコア(独自算出の注目度): 13.515728394180343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Soft snake robots offer remarkable flexibility and adaptability in complex environments, yet their control remains challenging due to highly nonlinear dynamics. Existing model-based and bio-inspired controllers rely on simplified assumptions that limit performance. Deep reinforcement learning (DRL) has recently emerged as a promising alternative, but online training is often impractical because of costly and potentially damaging real-world interactions. Offline RL provides a safer option by leveraging pre-collected datasets, but it suffers from distribution shift, which degrades generalization to unseen scenarios. To overcome this challenge, we propose DiSA-IQL (Distribution-Shift-Aware Implicit Q-Learning), an extension of IQL that incorporates robustness modulation by penalizing unreliable state-action pairs to mitigate distribution shift. We evaluate DiSA-IQL on goal-reaching tasks across two settings: in-distribution and out-of-distribution evaluation. Simulation results show that DiSA-IQL consistently outperforms baseline models, including Behavior Cloning (BC), Conservative Q-Learning (CQL), and vanilla IQL, achieving higher success rates, smoother trajectories, and improved robustness. The codes are open-sourced to support reproducibility and to facilitate further research in offline RL for soft robot control.
- Abstract(参考訳): ソフトヘビロボットは複雑な環境で優れた柔軟性と適応性を提供するが、その制御は高非線形ダイナミクスのために難しいままである。
既存のモデルベースおよびバイオインスパイアされたコントローラは、性能を制限する単純な仮定に依存している。
深層強化学習(DRL)は最近、有望な代替手段として登場したが、オンラインでのトレーニングは、コストがかかり、現実世界のインタラクションに害を与える可能性があるため、現実的ではないことが多い。
オフラインRLは、事前にコンパイルされたデータセットを活用することで、より安全なオプションを提供するが、分散シフトに悩まされ、一般化を目に見えないシナリオに格下げする。
この課題を克服するために、信頼性の低い状態-アクションペアをペナルティ化して分散シフトを軽減することでロバストネス変調を組み込んだIQLの拡張であるDiSA-IQL(Distribution-Shift-Aware Implicit Q-Learning)を提案する。
In-distriionとout-of-distriionの2つの設定でDiSA-IQLを評価した。
シミュレーションの結果、DiSA-IQLは、振舞いクローン(BC)、保守的Qラーニング(CQL)、バニラIQLなど、ベースラインモデルよりも一貫して優れており、より高い成功率、よりスムーズな軌道、堅牢性の向上を実現している。
これらのコードは再現性をサポートし、ソフトロボット制御のためのオフラインRLのさらなる研究を促進するためにオープンソース化されている。
関連論文リスト
- Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - Q-STAC: Q-Guided Stein Variational Model Predictive Actor-Critic [12.837649598521102]
本稿では,連続制御タスクのためのQ-guided STein variational model predictive Actor-Critic (Q-STAC)フレームワークを提案する。
本手法では,学習したQ値を直接目的とする制御シーケンスを最適化し,明示的なコスト関数設計の必要性を解消する。
2次元ナビゲーションとロボット操作タスクの実験は、Q-STACが最先端のアルゴリズムと比較して優れたサンプリング効率、堅牢性、最適性を達成することを示した。
論文 参考訳(メタデータ) (2025-07-09T07:53:53Z) - Offline Robotic World Model: Learning Robotic Policies without a Physics Simulator [50.191655141020505]
強化学習(Reinforcement Learning, RL)は、ロボット制御において目覚ましい能力を示してきたが、高いサンプルの複雑さ、安全性の懸念、そしてシム・トゥ・リアルのギャップのため、依然として困難である。
物理シミュレータに頼らずに政策学習を改善するために不確実性を明示的に推定するモデルベースアプローチであるオフラインロボット世界モデル(RWM-O)を導入する。
論文 参考訳(メタデータ) (2025-04-23T12:58:15Z) - Equivariant Offline Reinforcement Learning [7.822389399560674]
実演数が少ないオフラインRLに対して,$SO(2)$-equivariantなニューラルネットワークを使用することを検討した。
実験の結果,保守的Q-Learning(CQL)とImplicit Q-Learning(IQL)の同変バージョンは,同変でないQ-Learningよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-06-20T03:02:49Z) - Adaptive $Q$-Network: On-the-fly Target Selection for Deep Reinforcement Learning [18.579378919155864]
我々は、追加のサンプルを必要としない最適化手順の非定常性を考慮するために、Adaptive $Q$Network (AdaQN)を提案する。
AdaQNは理論上は健全で、MuJoCo制御問題やAtari 2600のゲームで実証的に検証されている。
論文 参考訳(メタデータ) (2024-05-25T11:57:43Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Single-Trajectory Distributionally Robust Reinforcement Learning [21.955807398493334]
本研究では,分散ロバストRL (DRRL) を提案する。
既存のDRRLアルゴリズムはモデルベースか、1つのサンプル軌道から学習できないかのいずれかである。
単一軌道を用いた分散ロバストQ-ラーニング(DRQ)と呼ばれる,完全モデルフリーなDRRLアルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-01-27T14:08:09Z) - Learning to Walk Autonomously via Reset-Free Quality-Diversity [73.08073762433376]
品質多様性アルゴリズムは、多様かつ高いパフォーマンスのスキルからなる大規模で複雑な行動レパートリーを発見することができる。
既存のQDアルゴリズムは、手動による人間の監督と介入を必要とするエピソードリセットと同様に、多数の評価を必要とする。
本稿では,オープンエンド環境におけるロボットの自律学習に向けたステップとして,リセットフリー品質多様性最適化(RF-QD)を提案する。
論文 参考訳(メタデータ) (2022-04-07T14:07:51Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。