論文の概要: X4Val: Learning Neural Surrogates for Variance-Reduced Policy Evaluation
- arxiv url: http://arxiv.org/abs/2606.05159v1
- Date: Wed, 03 Jun 2026 17:57:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.949854
- Title: X4Val: Learning Neural Surrogates for Variance-Reduced Policy Evaluation
- Title(参考訳): X4Val: 可変化ポリシ評価のためのニューラルネットワークサロゲートの学習
- Authors: Rachel Luo, Michael Watson, Apoorva Sharma, Heng Yang, Han Qi, Edward Schmerling, Sushant Veer, Boris Ivanovic, Marco Pavone,
- Abstract要約: X4Valは,非ペア型マルチドメインデータの存在下での分散還元実世界の測度推定のためのフレームワークである。
X4Valは、実際のドメインと補助ドメインのサンプルを共有表現空間に埋め込み、現実世界のメトリクスの転送可能な予測子を学ぶ。
本研究では,自律走行と実世界のロボット操作タスクに関する理論的解析と実証評価を行う。
- 参考スコア(独自算出の注目度): 35.30872487399918
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Rigorous evaluation of learning-based robotic systems is an essential prerequisite for deployment. However, real-world test data is expensive to gather; moreover, in a typical iterative development context, data gathered from the latest policy is necessarily limited in scale. This motivates evaluation methodologies that make use of heterogeneous data sources, including simulation, historical policy logs, and data collected from related platforms or environments. While such auxiliary data are abundant and inexpensive, they are generally not directly representative of real-world outcomes -- for example, performance in simulation may differ substantially from performance in the real world -- making their principled use for high-confidence performance estimation challenging. In this paper, we introduce X4Val, a general framework for variance-reduced real-world metric estimation in the presence of non-paired, multi-domain data. X4Val embeds samples from real and auxiliary domains into a shared representation space and learns a transferable predictor of real-world metrics; this learned predictor is then incorporated into a control-variates estimator, enabling variance reduction even when paired samples are unavailable. We provide theoretical analysis and empirical evaluations on autonomous driving and real-world robot manipulation tasks, domains across which X4Val achieves up to 38.4% variance reduction and demonstrates consistent improvements over strong baselines. These results show that non-paired, heterogeneous data can be leveraged to substantially improve the sample efficiency of rigorous robotic system validation.
- Abstract(参考訳): 学習に基づくロボットシステムの厳密な評価は、デプロイの必須条件である。
しかし、実世界のテストデータは収集するのに高価であり、また、典型的な反復的な開発環境では、最新のポリシーから収集されるデータは必ずしも大規模に限られている。
これは、シミュレーション、過去のポリシーログ、関連するプラットフォームや環境から収集されたデータを含む、異種データソースを使用する評価方法論を動機付けている。
このような補助データは豊富で安価であるが、一般的には実世界の成果を直接表現するものではない(例えば、シミュレーションのパフォーマンスは実世界のパフォーマンスと大きく異なる場合がある)。
本稿では,非ペア型マルチドメインデータの存在下での分散還元実世界の計量推定のための一般的なフレームワークであるX4Valを紹介する。
X4Valは、実領域と補助領域のサンプルを共有表現空間に埋め込み、実世界のメトリクスの転送可能な予測器を学習し、この学習予測器を制御変量推定器に組み込んで、ペアのサンプルが利用できない場合でも分散低減を可能にする。
我々は、X4Valが最大38.4%の分散還元を実現し、強力なベースラインよりも一貫した改善を示す、自律走行および実世界のロボット操作タスクに関する理論的解析および実証評価を行う。
これらの結果は、厳密なロボットシステム検証のサンプル効率を大幅に改善するために、不均質な不均質なデータを活用できることを示唆している。
関連論文リスト
- Towards Generalizable Deepfake Detection via Real Distribution Bias Correction [62.89674593681203]
本稿では,2つの主要コンポーネントからなるReal Distribution Bias Correction(RDBC)フレームワークを紹介する。
RDBCは、ドメイン内およびクロスドメインのディープフェイク検出の両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-03-14T16:11:00Z) - From Lab to Reality: A Practical Evaluation of Deep Learning Models and LLMs for Vulnerability Detection [2.8647133890967]
ディープ・ラーニング(DL)に基づく脆弱性検出手法は,ベンチマーク・データセットにおいて高い性能を示したが,実際の有効性は未解明のままである。
最近の研究は、グラフニューラルネットワーク(GNN)ベースのモデルと、大言語モデル(LLM)を含むトランスフォーマーベースのモデルの両方が、キュレートされたベンチマークデータセットで評価すると有望な結果が得られることを示唆している。
本研究では,2つの代表的なDLモデルであるReVealとLineVulの4つの代表的なデータセットを体系的に評価する。
論文 参考訳(メタデータ) (2025-12-11T10:04:54Z) - Valid Inference with Imperfect Synthetic Data [39.10587411316875]
モーメントの一般化法に基づく新しい推定器を提案する。
合成データのモーメント残差と実データのモーメント間の相互作用は、対象パラメータの推定を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2025-08-08T18:32:52Z) - Testing Generalizability in Causal Inference [3.547529079746247]
機械学習アルゴリズムの一般化性を統計的に評価するための公式な手続きは存在しない。
本研究では,高次元因果推論モデルの一般化可能性を統計的に評価するための体系的枠組みを提案する。
論文 参考訳(メタデータ) (2024-11-05T11:44:00Z) - Geometry-Aware Instrumental Variable Regression [56.16884466478886]
本稿では,データ導出情報によるデータ多様体の幾何を考慮した移動型IV推定器を提案する。
本手法のプラグイン・アンド・プレイ実装は,標準設定で関連する推定器と同等に動作する。
論文 参考訳(メタデータ) (2024-05-19T17:49:33Z) - One-Shot Domain Adaptive and Generalizable Semantic Segmentation with
Class-Aware Cross-Domain Transformers [96.51828911883456]
セマンティックセグメンテーションのための教師なしのsim-to-realドメイン適応(UDA)は、シミュレーションデータに基づいて訓練されたモデルの実世界のテスト性能を改善することを目的としている。
従来のUDAは、適応のためのトレーニング中に利用可能なラベルのない実世界のサンプルが豊富にあると仮定することが多い。
実世界のデータサンプルが1つしか利用できない,一発の教師なしシム・トゥ・リアル・ドメイン適応(OSUDA)と一般化問題について検討する。
論文 参考訳(メタデータ) (2022-12-14T15:54:15Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Evaluating Predictive Uncertainty and Robustness to Distributional Shift
Using Real World Data [0.0]
シフト天気予報データセットを用いて、一般的な回帰作業のためのメトリクスを提案する。
また,これらの指標を用いたベースライン手法の評価を行った。
論文 参考訳(メタデータ) (2021-11-08T17:32:10Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Distributed Learning of Finite Gaussian Mixtures [21.652015112462]
有限ガウス混合系の分散学習における分割・対数アプローチについて検討する。
新しい推定器は整合性を示し、いくつかの一般的な条件下ではルート-nの整合性を保持する。
シミュレーションおよび実世界のデータに基づく実験により、提案手法はグローバル推定器と同等の統計的性能を有することが示された。
論文 参考訳(メタデータ) (2020-10-20T16:17:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。