論文の概要: Learning-Based Robust Control: Unifying Exploration and Distributional Robustness for Reliable Robotics via Free Energy
- arxiv url: http://arxiv.org/abs/2603.06831v1
- Date: Fri, 06 Mar 2026 19:47:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.010418
- Title: Learning-Based Robust Control: Unifying Exploration and Distributional Robustness for Reliable Robotics via Free Energy
- Title(参考訳): 学習に基づくロバスト制御:自由エネルギーによる信頼性ロボットのための探索と分散ロバストネスの統合
- Authors: Hozefa Jesawada, Giovanni Russo, Abdalla Swikir, Fares Abu-Dakka,
- Abstract要約: 信頼性の高いロボット制御の鍵となる課題は、ポリシーを学習し、現場に配備されたときに堅牢性を保証することができる計算モデルを考案することである。
計算神経科学における自由エネルギー原理に着想を得て,環境力学と報酬を共同で学習する政策計算モデルを提案する。
- 参考スコア(独自算出の注目度): 2.409827426380616
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: A key challenge towards reliable robotic control is devising computational models that can both learn policies and guarantee robustness when deployed in the field. Inspired by the free energy principle in computational neuroscience, to address these challenges, we propose a model for policy computation that jointly learns environment dynamics and rewards, while ensuring robustness to epistemic uncertainties. Expounding a distributionally robust free energy principle, we propose a modification to the maximum diffusion learning framework. After explicitly characterizing robustness of our policies to epistemic uncertainties in both environment and reward, we validate their effectiveness on continuous-control benchmarks, via both simulations and real-world experiments involving manipulation with a Franka Research~3 arm. Across simulation and zero-shot deployment, our approach narrows the sim-to-real gap, and enables repeatable tabletop manipulation without task-specific fine-tuning.
- Abstract(参考訳): 信頼性の高いロボット制御に対する重要な課題は、ポリシーを学習し、現場に配備されたときに堅牢性を保証することができる計算モデルを考案することである。
計算神経科学における自由エネルギー原理に触発されてこれらの課題に対処し,環境力学と報酬を共同で学習する政策計算モデルを提案する。
本稿では,分散的に頑健な自由エネルギーの原理を述べるとともに,最大拡散学習フレームワークの変更を提案する。
環境と報酬の両面での疫学的な不確実性に対する我々の政策の堅牢性を明確に評価した後、フランカ研究所の3つのアームによる操作を含むシミュレーションと実世界の実験を通して、連続制御ベンチマークにおいてそれらの効果を検証した。
シミュレーションとゼロショット展開を通じて,本手法はsim-to-realギャップを狭め,タスク固有の微調整を伴わずにテーブルトップ操作を繰り返すことができる。
関連論文リスト
- Sim2Act: Robust Simulation-to-Decision Learning via Adversarial Calibration and Group-Relative Perturbation [54.29523408543184]
シミュレーションと意思決定の学習は、現実世界の展開を危険にさらすことなく、デジタル環境で安全なポリシートレーニングを可能にする。
既存のアプローチでは、平均的なシミュレーションの忠実さを改善するか、保守的な正規化を採用するかに重点を置いている。
提案するSim2Actは,シミュレータとポリシーのロバスト性の両方に対処するロバストなシミュレーション・トゥ・意思決定フレームワークである。
論文 参考訳(メタデータ) (2026-03-10T00:51:47Z) - Safely Learning Controlled Stochastic Dynamics [61.82896036131116]
システム力学の安全な探索と効率的な推定を可能にする手法を提案する。
学習後、学習モデルはシステムのダイナミクスの予測を可能にし、任意の制御の安全性検証を可能にする。
我々は、真の力学のソボレフ正則性を高めることにより、安全性と適応学習率の向上を理論的に保証する。
論文 参考訳(メタデータ) (2025-06-03T11:17:07Z) - Dynamic Manipulation of Deformable Objects in 3D: Simulation, Benchmark and Learning Strategy [88.8665000676562]
従来の手法は、しばしば問題を低速または2D設定に単純化し、現実の3Dタスクに適用性を制限する。
データ不足を軽減するため、新しいシミュレーションフレームワークと、低次ダイナミクスに基づくベンチマークを導入する。
本研究では,シミュレーション前トレーニングと物理インフォームドテスト時間適応を統合するフレームワークであるDynamics Informed Diffusion Policy (DIDP)を提案する。
論文 参考訳(メタデータ) (2025-05-23T03:28:25Z) - Multi-Objective Reinforcement Learning for Energy-Efficient Industrial Control [0.6990493129893112]
産業自動化は、環境やコストの制約と性能のバランスをとるためのエネルギー効率の高い制御戦略をますます要求している。
本研究では,クアンサーエアロ2の1自由度試験におけるエネルギー効率向上のための多目的強化学習(MORL)フレームワークを提案する。
予備実験では、ピッチトラッキングと省エネの間のトレードオフに対するエネルギーのペナルティ重量、アルファの影響について検討している。
論文 参考訳(メタデータ) (2025-05-12T14:28:42Z) - Risk-Sensitive Stochastic Optimal Control as Rao-Blackwellized Markovian
Score Climbing [3.9410617513331863]
動的システムの最適制御は、シーケンシャルな意思決定において重要な課題である。
コントロール・アズ・推論のアプローチは大きな成功をおさめ、探索・探索ジレンマに対処するためのリスクに敏感なフレームワークを提供する。
本稿では, 条件付き粒子フィルタから抽出した試料下でのマルコフ強化スコアクライミングとして, リスク感応性制御のフレーミングによる新しい視点を提案する。
論文 参考訳(メタデータ) (2023-12-21T16:34:03Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Actively Learning Reinforcement Learning: A Stochastic Optimal Control Approach [3.453622106101339]
本研究では,2つの相互に結びついた目的を達成するための枠組みを提案する。 (i) 積極的な探索と意図的な情報収集を伴う強化学習と, (ii) 最適制御法の計算的難易度を克服する枠組みである。
我々は、強化学習を用いて最適制御則を計算することにより、両方の目的にアプローチする。
一定の探索と搾取バランスとは異なり、学習プロセスが終了しても、警告と探索はリアルタイムでコントローラによって自動的に行われる。
論文 参考訳(メタデータ) (2023-09-18T18:05:35Z) - Residual Physics Learning and System Identification for Sim-to-real
Transfer of Policies on Buoyancy Assisted Legged Robots [14.760426243769308]
本研究では,BALLUロボットのシステム識別による制御ポリシのロバストなシミュレートを実演する。
標準的な教師あり学習の定式化に頼るのではなく、深層強化学習を利用して外部力政策を訓練する。
シミュレーショントラジェクトリと実世界のトラジェクトリを比較することで,改良されたシミュレーション忠実度を解析する。
論文 参考訳(メタデータ) (2023-03-16T18:49:05Z) - Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。
本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文 参考訳(メタデータ) (2021-05-17T08:36:18Z) - Variational Dynamic for Self-Supervised Exploration in Deep Reinforcement Learning [12.76337275628074]
本研究では,条件付き変分推論に基づく変動力学モデルを提案し,多モード性および生成性をモデル化する。
環境遷移の負の対数類似度の上界を導出し、その上界を探査の本質的な報酬として利用する。
提案手法は,最先端の環境モデルに基づく探索手法よりも優れている。
論文 参考訳(メタデータ) (2020-10-17T09:54:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。