論文の概要: Sim2Act: Robust Simulation-to-Decision Learning via Adversarial Calibration and Group-Relative Perturbation
- arxiv url: http://arxiv.org/abs/2603.09053v1
- Date: Tue, 10 Mar 2026 00:51:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:23.916692
- Title: Sim2Act: Robust Simulation-to-Decision Learning via Adversarial Calibration and Group-Relative Perturbation
- Title(参考訳): Sim2Act: 対数校正とグループ相対摂動によるロバストなシミュレーションと意思決定学習
- Authors: Hongyu Cao, Jinghan Zhang, Kunpeng Liu, Dongjie Wang, Feng Xia, Haifeng Chen, Xiaohua Hu, Yanjie Fu,
- Abstract要約: シミュレーションと意思決定の学習は、現実世界の展開を危険にさらすことなく、デジタル環境で安全なポリシートレーニングを可能にする。
既存のアプローチでは、平均的なシミュレーションの忠実さを改善するか、保守的な正規化を採用するかに重点を置いている。
提案するSim2Actは,シミュレータとポリシーのロバスト性の両方に対処するロバストなシミュレーション・トゥ・意思決定フレームワークである。
- 参考スコア(独自算出の注目度): 54.29523408543184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Simulation-to-decision learning enables safe policy training in digital environments without risking real-world deployment, and has become essential in mission-critical domains such as supply chains and industrial systems. However, simulators learned from noisy or biased real-world data often exhibit prediction errors in decision-critical regions, leading to unstable action ranking and unreliable policies. Existing approaches either focus on improving average simulation fidelity or adopt conservative regularization, which may cause policy collapse by discarding high-risk high-reward actions. We propose Sim2Act, a robust simulation-to-decision framework that addresses both simulator and policy robustness. First, we introduce an adversarial calibration mechanism that re-weights simulation errors in decision-critical state-action pairs to align surrogate fidelity with downstream decision impact. Second, we develop a group-relative perturbation strategy that stabilizes policy learning under simulator uncertainty without enforcing overly pessimistic constraints. Extensive experiments on multiple supply chain benchmarks demonstrate improved simulation robustness and more stable decision performance under structured and unstructured perturbations.
- Abstract(参考訳): シミュレーション・トゥ・意思決定学習は、現実世界の展開を危険にさらすことなく、デジタル環境における安全な政策訓練を可能にし、サプライチェーンや産業システムといったミッションクリティカルな領域において欠かせないものとなっている。
しかし、ノイズやバイアスのある実世界のデータから学んだシミュレータは、しばしば決定クリティカルな領域で予測エラーを示し、不安定な行動ランキングと信頼性の低いポリシーをもたらす。
既存のアプローチは、平均的なシミュレーションの忠実さを改善することに注力するか、保守的な正規化を採用するかのいずれかであり、これは高リスクなハイリワード行動を捨てることによる政策崩壊を引き起こす可能性がある。
提案するSim2Actは,シミュレータとポリシーのロバスト性の両方に対処するロバストなシミュレーション・トゥ・意思決定フレームワークである。
まず,決定クリティカルな状態-動作ペアにおけるシミュレーションエラーを再重み付けする逆キャリブレーション機構を導入し,サロゲートの忠実度と下流の判定インパクトを一致させる。
第2に、過度の悲観的制約を課すことなく、シミュレータの不確実性の下でポリシー学習を安定化するグループ相対摂動戦略を開発する。
複数のサプライチェーンベンチマークの大規模な実験は、構造的および非構造的摂動下でのシミュレーションロバスト性の改善とより安定した決定性能を示す。
関連論文リスト
- ARTIS: Agentic Risk-Aware Test-Time Scaling via Iterative Simulation [72.78362530982109]
ARTIS(Agenic Risk-Aware Test-Time Scaling via Iterative Simulation)は、コミットメントから探索を分離するフレームワークである。
LLMをベースとした簡易シミュレータは, 希少かつ高インパクトな障害モードの捕捉に苦慮していることを示す。
本稿では,障害発生行動の忠実度を強調するリスク認識ツールシミュレータを提案する。
論文 参考訳(メタデータ) (2026-02-02T06:33:22Z) - Reliable and Scalable Robot Policy Evaluation with Imperfect Simulators [9.868826622074899]
SureSimは、比較的小さな実世界のテストで大規模なシミュレーションを強化するためのフレームワークである。
我々は,非漸近平均推定アルゴリズムを利用して,平均政策性能に対する信頼区間を提供する。
当社のアプローチは,同様のポリシ性能の限界を達成するため,ハードウェア評価作業の20~25%以上を節約する。
論文 参考訳(メタデータ) (2025-10-05T20:37:53Z) - Supply Chain Optimization via Generative Simulation and Iterative Decision Policies [39.67447490193419]
Sim-to-Decは、効率的なシミュレータとインテリジェントな意思決定アルゴリズムを組み合わせたフレームワークである。
3つの実世界のデータセットで実施された実験は、Sim-to-Decがタイムリーな配送率と利益を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-07-10T00:41:15Z) - Neural Fidelity Calibration for Informative Sim-to-Real Adaptation [10.117298045153564]
深い強化学習は、アジャイルの移動とナビゲーションのスキルをシミュレータから現実世界にシームレスに移行することができる。
しかし、ドメインのランダム化や敵対的手法とシム・トゥ・リアルのギャップを埋めることは、しばしば政策の堅牢性を保証するために専門家の物理学知識を必要とする。
本研究では, 条件付きスコアベース拡散モデルを用いて, ロボットの動作中における物理係数と残留忠実度領域のキャリブレーションを行う新しいフレームワークであるNeural Fidelity(NFC)を提案する。
論文 参考訳(メタデータ) (2025-04-11T15:12:12Z) - SAFE-SIM: Safety-Critical Closed-Loop Traffic Simulation with Diffusion-Controllable Adversaries [94.84458417662407]
制御可能なクローズドループ安全クリティカルシミュレーションフレームワークであるSAFE-SIMを紹介する。
提案手法は,1)現実の環境を深く反映した現実的な長距離安全クリティカルシナリオの生成,2)より包括的でインタラクティブな評価のための制御可能な敵行動の提供,の2つの利点をもたらす。
複数のプランナにまたがるnuScenesとnuPlanデータセットを使用して、我々のフレームワークを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文 参考訳(メタデータ) (2023-12-31T04:14:43Z) - Analyzing and Enhancing Closed-loop Stability in Reactive Simulation [25.27603440925488]
本研究では,シミュレーションと現実の交通シナリオ間の人間の行動ギャップを埋める新しいリアクティブ・シミュレーション・フレームワークを提案する。
まず、シミュレーション状態列の滑らかさと一貫性が安定性の重要な要因となる新しい反応性シミュレーションフレームワークを提案する。
次に、反応シミュレーションの閉ループ安定性を改善するために、キネマティック車両モデルをフレームワークに組み込む。
論文 参考訳(メタデータ) (2022-08-09T06:31:35Z) - ERMAS: Becoming Robust to Reward Function Sim-to-Real Gaps in
Multi-Agent Simulations [110.72725220033983]
Epsilon-Robust Multi-Agent Simulation (ERMAS)は、このようなマルチエージェントのsim-to-realギャップに対して堅牢なAIポリシーを学ぶためのフレームワークである。
ERMASは、エージェントリスク回避の変化に対して堅牢な税政策を学び、複雑な時間シミュレーションで最大15%社会福祉を改善する。
特に、ERMASは、エージェントリスク回避の変化に対して堅牢な税制政策を学び、複雑な時間シミュレーションにおいて、社会福祉を最大15%改善する。
論文 参考訳(メタデータ) (2021-06-10T04:32:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。