論文の概要: Mind the Sim-to-Real Gap & Think Like a Scientist
- arxiv url: http://arxiv.org/abs/2605.21458v1
- Date: Wed, 20 May 2026 17:48:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.823081
- Title: Mind the Sim-to-Real Gap & Think Like a Scientist
- Title(参考訳): シン・トゥ・リアルのギャップを思い浮かべて科学者のように考える
- Authors: Harsh Parikh, Gabriel Levin-Konigsberg, Dominique Perrault-Joncas, Alexander Volfovsky,
- Abstract要約: 我々は,シミュレータを実験で補うべき時期と方法について検討する。
我々はシミュレーション支援実験政策であるFisher-SEPを提案する。
- 参考スコア(独自算出の注目度): 44.54570296032634
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Suppose a planner has a pre-trained simulator of a sequential decision problem and the option to run real experiments in the field. The simulator is cheap to query but inherits confounding and drift from its calibration data. Experimentation is unbiased but consumes one real unit per trial. We study when, and how, the planner should supplement the simulator with experiments. We give three results. First, an extended simulation lemma decomposes the simulator's value error into a calibration--deployment shift that randomization can identify and a parametric residual that no further interaction can reduce. Second, the value gap between the simulator-optimal policy and the optimum splits into a local component, on states the deployed policy already visits, and a reachability component, on states it does not. The reachability component stays bounded away from zero at any horizon under purely passive learning. Third, we propose Fisher-SEP, a simulation-aided experimental policy (SEP) that minimizes the posterior predictive variance of a target policy's value, with reward-only and transition-only specializations. Two case studies illustrate the regimes. In a vending-machine supply chain, front-loaded experimentation overtakes posterior updating once the horizon is long enough to amortize the pilot. In an HIV mobile-testing example with a corridor that separates a well-surveilled region from a poorly-surveilled one, only designed exploration reaches the poorly-surveilled region.
- Abstract(参考訳): 計画立案者は、逐次決定問題の事前訓練されたシミュレータと、実実験を現場で実行するオプションを有すると仮定する。
シミュレーターはクェリが安いが、キャリブレーションデータからコンバウンディングとドリフトを継承する。
実験は偏りがないが、1回の試行で1単位を消費する。
我々は,シミュレータを実験で補うべき時期と方法について検討する。
3つの結果が得られます。
まず、拡張されたシミュレーション補題は、シミュレータの値誤差を、ランダム化が識別できるキャリブレーション-デプロイシフトと、それ以上の相互作用を減少できないパラメトリック残差に分解する。
第二に、シミュレータ-最適ポリシーと最適ポリシーの間の値ギャップは、デプロイ済みポリシーがすでに訪問している状態のローカルコンポーネントと、そうでない状態のリーチビリティコンポーネントに分割される。
リーチビリティコンポーネントは、純粋に受動的学習の下で、どんな地平線でもゼロから遠ざかっている。
第3に、シミュレーション支援実験政策(SEP)であるFisher-SEPを提案する。
2つのケーススタディは、体制を説明する。
自動販売機サプライチェーンでは、水平線がパイロットを苦しめるのに十分な長さであれば、前装実験は後装更新に乗じる。
HIVのモバイルテストの例では、十分に調査された地域と調査が不十分な地域を分ける廊下があり、調査が不十分な地域に到達するようにデザインされているだけである。
関連論文リスト
- Posterior-First Neural PDE Simulation: Inferring Hidden Problem State from a Single Field [5.24655241578805]
フィールド・トゥ・フューチャー予測器は、異なる遅延問題状態を同じ決定論的インターフェースに分解することができる。
本稿では,後1次ニューラルPDEシミュレーションを提案する。まず,タスクに十分である問題状態に対して後1次を推定し,後1次ニューラルPDEの条件予測を行う。
論文 参考訳(メタデータ) (2026-05-05T00:37:01Z) - Learning Shortest Paths When Data is Scarce [3.3012620893449465]
本研究では,プランナーが豊富な合成サンプルにアクセス可能な最短経路問題,限られた実世界の観測,およびリンク間の振る舞いの類似性を推定するエッジ類似性について検討する。
シミュレーションと現実の相違を、類似性グラフ上で滑らかに変化するエッジ固有のバイアスとしてモデル化し、ラプラシアン正規化最小二乗を用いて推定する。
初期実データを持たないコールドスタート設定のために、所定の精度が満たされるまでエッジを適応的に選択するバイアス対応能動学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2026-01-07T06:19:04Z) - Selecting Belief-State Approximations in Simulators with Latent States [6.368520403252146]
状態リセットは基本的なものであるが、しばしば見過ごされるシミュレータの能力である。
この問題は、一般的な条件分布選択タスクに還元されることを示す。
我々はサンプリング専用アクセス下での新しいアルゴリズムと解析法を開発した。
論文 参考訳(メタデータ) (2025-11-25T21:34:01Z) - Pseudo-Simulation for Autonomous Driving [66.1981253104508]
既存の自動運転車(AV)の評価パラダイムは、重大な制限に直面している。
現実世界の評価は、安全上の懸念と現実主義の欠如のためにしばしば困難である。
オープンループ評価は、一般的に複合的なエラーを見落としているメトリクスに依存する。
論文 参考訳(メタデータ) (2025-06-04T17:57:53Z) - Prediction-Powered Causal Inferences [59.98498488132307]
予測型因果推論(PPCI)に焦点をあてる
まず, 条件付きキャリブレーションにより, 人口レベルでの有効なPPCIが保証されることを示す。
次に、実験間での十分な表現制約伝達の妥当性を導入する。
論文 参考訳(メタデータ) (2025-02-10T10:52:17Z) - NAVSIM: Data-Driven Non-Reactive Autonomous Vehicle Simulation and Benchmarking [65.24988062003096]
我々は,視覚に基づく運転ポリシーをベンチマークするフレームワークであるNAVSIMを提案する。
我々のシミュレーションは非反応性であり、評価された政策と環境は互いに影響を与えない。
NAVSIMはCVPR 2024で開催され、143チームが433のエントリーを提出し、いくつかの新たな洞察を得た。
論文 参考訳(メタデータ) (2024-06-21T17:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。