論文の概要: On Surprising Effects of Risk-Aware Domain Randomization for Contact-Rich Sampling-based Predictive Control
- arxiv url: http://arxiv.org/abs/2605.03290v1
- Date: Tue, 05 May 2026 02:23:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.725368
- Title: On Surprising Effects of Risk-Aware Domain Randomization for Contact-Rich Sampling-based Predictive Control
- Title(参考訳): コンタクトリッチサンプリングに基づく予測制御におけるリスク対応ドメインランダム化の効果について
- Authors: Sergio A. Esteban, Junheng Li, Vince Kurtz, Aaron D. Ames,
- Abstract要約: ドメインランダム化(DR)は、モデルエラーに対する堅牢性を改善するためにポリシー学習で広く使われている。
DRは、ロールアウト品質が不確実性に非常に敏感な、コンタクトリッチサンプリングベースの予測制御(SPC)において過小評価されている。
- 参考スコア(独自算出の注目度): 17.91766980948027
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Domain randomization (DR) is widely used in policy learning to improve robustness to modeling error, but remains underexplored in contact-rich sampling-based predictive control (SPC), where rollout quality is highly sensitive to uncertainty. In this work, we take the first step by studying risk-aware DR in predictive sampling on a simple yet representative Push-T task, comparing average, optimistic, and pessimistic rollout aggregations under randomized model instances. Our initial results suggest that DR affects not only robustness to model error, but also the effective cost landscape seen by the sampling-based optimizer, by reshaping the basin of attraction around contact-producing actions. This opens up potential for exploring better grounded risk-aware contact-rich SPC under model uncertainty. Video: https://youtu.be/f1F0ALXxhSM
- Abstract(参考訳): ドメインランダム化(DR)は、モデリングエラーに対する堅牢性を改善するためにポリシー学習で広く用いられているが、ロールアウトの品質が不確実性に非常に敏感な、コンタクトリッチサンプリングベースの予測制御(SPC)では未探索のままである。
本研究では,リスク認識型DRを単純なPush-Tタスクの予測サンプリングに適用し,ランダム化モデルインスタンスにおける平均,楽観的,悲観的なロールアウトアグリゲーションを比較する。
実験結果から,DRはモデル誤差に対するロバスト性だけでなく,サンプリングベースオプティマイザによる効果的なコスト景観にも影響し,接触発生行動のアトラクションの流域を再構築したことが示唆された。
これにより、モデル不確実性の下で、より地味なリスク対応コンタクトリッチSPCを探索する可能性が開ける。
ビデオ:https://youtu.be/f1F0ALXxhSM
関連論文リスト
- On the Plasticity and Stability for Post-Training Large Language Models [54.757672540381236]
塑性と安定性勾配の矛盾として根本原因を同定する。
本稿では,確率的衝突解決法(PCR)を提案する。
PCRはトレーニングの軌道を著しく滑らかにし、様々な推論タスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-02-06T07:31:26Z) - Statistical Estimation of Adversarial Risk in Large Language Models under Best-of-N Sampling [50.872910438715486]
大規模言語モデル(LLM)は、通常、単一ショットまたは低予算の逆のプロンプトの下で安全性を評価する。
我々は,Best-of-Nサンプリングの下でのジェイルブレイク脆弱性をモデル化するための,スケーリング対応のリスク推定手法であるSABERを提案する。
論文 参考訳(メタデータ) (2026-01-30T06:54:35Z) - Adaptive Sampling to Reduce Epistemic Uncertainty Using Prediction Interval-Generation Neural Networks [0.0]
本稿では,予測モデルにおけるてんかんの不確実性を低減するための適応サンプリング手法を提案する。
我々の主な貢献は、潜在的なてんかんの不確実性を推定する計量の開発である。
ガウス過程(GP)に基づくバッチサンプリング戦略も提案する。
本研究では, 実験肥料の施肥率を選択するために, 3つの一次元合成問題と, 農業分野に基づく多次元データセットについて検討した。
論文 参考訳(メタデータ) (2024-12-13T21:21:47Z) - Risk-Sensitive Diffusion: Robustly Optimizing Diffusion Models with Noisy Samples [58.68233326265417]
非画像データは実際のアプリケーションで広く使われており、ノイズが多い傾向にある。
リスク感受性SDEは、リスクベクトルによってパラメータ化された微分方程式(SDE)の一種である。
我々はガウス雑音分布と非ガウス雑音分布の両方について系統的研究を行う。
論文 参考訳(メタデータ) (2024-02-03T08:41:51Z) - High Precision Causal Model Evaluation with Conditional Randomization [10.23470075454725]
因果誤差を推定するための新しい低分散推定器(ペア推定器)を提案する。
モデルと真の実験効果の両方に同じIPW推定器を適用することにより、IPWによる分散を効果的にキャンセルし、より小さな分散を実現する。
提案手法は,IPW推定器自体の複雑な変更を伴わずに,条件付きランダム化設定における因果推論モデルを評価するための,単純かつ強力な解を提供する。
論文 参考訳(メタデータ) (2023-11-03T13:22:27Z) - The Curious Price of Distributional Robustness in Reinforcement Learning with a Generative Model [71.59406356321101]
本稿では,強化学習(RL)におけるモデルロバスト性を検討した。
我々は,デプロイ環境が,名目MDPに規定された不確実性に陥る場合に,最悪の場合のパフォーマンスを最適化する政策を学習することを目的とした,分布的に堅牢なマルコフ決定プロセス(RMDP)の枠組みを採用する。
論文 参考訳(メタデータ) (2023-05-26T02:32:03Z) - Off-Policy Risk Assessment in Markov Decision Processes [15.225153671736201]
我々はマルコフ決定過程(MDPs)におけるリターンのCDFのための最初の2倍ロバスト(DR)推定器を開発する。
この推定器は、分散を著しく少なくし、モデルが十分に特定されたとき、クレーマー・ラオ分散の低い境界を達成する。
オフポリチックCDFとリスク推定のための最初のミニマックス下限を導出する。
論文 参考訳(メタデータ) (2022-09-21T15:40:59Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Deep Bandits Show-Off: Simple and Efficient Exploration with Deep
Networks [14.178899938667161]
文脈的包帯に対する簡便かつ効率的な不確実性尺度であるサンプル平均不確実性(SAU)を紹介する。
単純さのため、SAUはエプシロン・グレディ探索の非常にスケーラブルなドロップイン代替として、深い文脈の包帯にシームレスに適用できる。
論文 参考訳(メタデータ) (2021-05-10T21:45:01Z) - Principled learning method for Wasserstein distributionally robust
optimization with local perturbations [21.611525306059985]
ワッサーシュタイン分布論的ロバスト最適化(WDRO)は、実験データ分布近傍の局所的な最悪のリスクを最小限に抑えるモデルを学習しようとする。
本稿では,新しい近似定理に基づく最小化器を提案し,それに対応するリスク一貫性結果を提供する。
提案手法は,ノイズのあるデータセットのベースラインモデルよりも精度が高いことを示す。
論文 参考訳(メタデータ) (2020-06-05T09:32:37Z) - RAIN: A Simple Approach for Robust and Accurate Image Classification
Networks [156.09526491791772]
既存の敵防衛手法の大部分は、予測精度を犠牲にして堅牢性を実現することが示されている。
本稿では,ロバストおよび高精度画像分類N(RAIN)と呼ぶ新しい前処理フレームワークを提案する。
RAINは入力に対してランダム化を適用して、モデルフォワード予測パスと後方勾配パスの関係を壊し、モデルロバスト性を改善する。
STL10 と ImageNet のデータセットを用いて、様々な種類の敵攻撃に対する RAIN の有効性を検証する。
論文 参考訳(メタデータ) (2020-04-24T02:03:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。