論文の概要: Using Causal Inference to Test Systems with Hidden and Interacting Variables: An Evaluative Case Study
- arxiv url: http://arxiv.org/abs/2504.16526v2
- Date: Fri, 25 Apr 2025 13:32:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.058039
- Title: Using Causal Inference to Test Systems with Hidden and Interacting Variables: An Evaluative Case Study
- Title(参考訳): 因果推論を用いた隠れおよび相互作用する変数のテストシステム:評価ケーススタディ
- Authors: Michael Foster, Robert M. Hierons, Donghwan Shin, Neil Walkinshaw, Christopher Wild,
- Abstract要約: 大規模なパラメータ空間、非決定性、高い計算コストを持つソフトウェアシステムは、テストが困難である。
因果推論に基づく最近のソフトウェアテスト技術は、そのような特性を示すシステムにうまく適用されている。
- 参考スコア(独自算出の注目度): 2.1146241717926664
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Software systems with large parameter spaces, nondeterminism and high computational cost are challenging to test. Recently, software testing techniques based on causal inference have been successfully applied to systems that exhibit such characteristics, including scientific models and autonomous driving systems. One significant limitation is that these are restricted to test properties where all of the variables involved can be observed and where there are no interactions between variables. In practice, this is rarely guaranteed; the logging infrastructure may not be available to record all of the necessary runtime variable values, and it can often be the case that an output of the system can be affected by complex interactions between variables. To address this, we leverage two additional concepts from causal inference, namely effect modification and instrumental variable methods. We build these concepts into an existing causal testing tool and conduct an evaluative case study which uses the concepts to test three system-level requirements of CARLA, a high-fidelity driving simulator widely used in autonomous vehicle development and testing. The results show that we can obtain reliable test outcomes without requiring large amounts of highly controlled test data or instrumentation of the code, even when variables interact with each other and are not recorded in the test data.
- Abstract(参考訳): 大規模なパラメータ空間、非決定性、高い計算コストを持つソフトウェアシステムは、テストが困難である。
近年, 因果推論に基づくソフトウェアテスト技術は, 科学的モデルや自律運転システムなどの特性を示すシステムに適用されている。
重要な制限の1つは、これらはすべての変数が観察できるテストプロパティに制限され、変数間の相互作用が存在しないことである。
ロギングインフラストラクチャは必要なランタイム変数のすべての値を記録できない場合があるし、システムの出力が変数間の複雑な相互作用の影響を受けやすい場合も少なくない。
これを解決するために、因果推論(エフェクト修正)とインストゥルメンタル変数法(インスツルメンタル変数法)の2つの追加概念を利用する。
我々はこれらの概念を既存の因果テストツールに組み込んで評価ケーススタディを行い、CARLAの3つのシステムレベルの要件をテストする。
その結果、変数が相互に相互作用し、テストデータに記録されていない場合でも、大量の高度に制御されたテストデータやコードのインスツルメンテーションを必要とせず、信頼性の高いテスト結果を得ることができることがわかった。
関連論文リスト
- On the Mistaken Assumption of Interchangeable Deep Reinforcement Learning Implementations [53.0667196725616]
ディープ・強化学習(Deep Reinforcement Learning, DRL)とは、エージェントがニューラルネットワークを使って特定の環境でどのアクションをとるかを学ぶ人工知能のパラダイムである。
DRLは最近、ドライビングシミュレーター、3Dロボット制御、マルチプレイヤー・オンライン・バトル・アリーナ・ビデオゲームといった複雑な環境を解くことで注目を集めている。
現在、Deep Q-Network (DQN) や Proximal Policy Optimization (PPO) アルゴリズムのような、これらのエージェントを訓練する最先端のアルゴリズムの実装が数多く存在する。
論文 参考訳(メタデータ) (2025-03-28T16:25:06Z) - The Causal Chambers: Real Physical Systems as a Testbed for AI Methodology [10.81691411087626]
AI、機械学習、統計学のいくつかの分野において、新しい方法やアルゴリズムの検証は、適切な実世界のデータセットの不足によって妨げられることが多い。
我々は,非自明だがよく理解された物理的システムから,大規模データセットを迅速かつ安価に生成できる2つのデバイスを構築した。
論文 参考訳(メタデータ) (2024-04-17T13:00:52Z) - Towards Reliable AI: Adequacy Metrics for Ensuring the Quality of
System-level Testing of Autonomous Vehicles [5.634825161148484]
我々は、"Test suite Instance Space Adequacy"(TISA)メトリクスと呼ばれる一連のブラックボックステストの精度指標を紹介します。
TISAメトリクスは、テストスイートの多様性とカバレッジと、テスト中に検出されたバグの範囲の両方を評価する手段を提供する。
AVのシステムレベルのシミュレーションテストにおいて検出されたバグ数との相関を検証し,TISA測定の有効性を評価する。
論文 参考訳(メタデータ) (2023-11-14T10:16:05Z) - Deep anytime-valid hypothesis testing [29.273915933729057]
非パラメトリックなテスト問題に対する強力なシーケンシャルな仮説テストを構築するための一般的なフレームワークを提案する。
テスト・バイ・ベッティング・フレームワーク内で、機械学習モデルの表現能力を活用するための原則的なアプローチを開発する。
合成および実世界のデータセットに関する実証的な結果は、我々の一般的なフレームワークを用いてインスタンス化されたテストが、特殊なベースラインと競合することを示している。
論文 参考訳(メタデータ) (2023-10-30T09:46:19Z) - Asynchronous Integration of Real-Time Simulators for HIL-based
Validation of Smart Grids [0.08796261172196743]
本稿では,実時間シミュレータを協調シミュレーション環境に統合することにより,テストの観点から開放される可能性について考察する。
スマートグリッドアプリケーションは通常、比較的多数の物理デバイス、ソフトウェアコンポーネント、通信技術を含む。
論文 参考訳(メタデータ) (2023-09-14T11:44:21Z) - Towards Automatic Generation of Amplified Regression Test Oracles [44.45138073080198]
回帰テストオラクルを増幅するためのテストオラクル導出手法を提案する。
このアプローチはテスト実行中にオブジェクトの状態を監視し、以前のバージョンと比較して、SUTの意図した振る舞いに関連する変更を検出する。
論文 参考訳(メタデータ) (2023-07-28T12:38:44Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Interactive System-wise Anomaly Detection [66.3766756452743]
異常検出は様々なアプリケーションにおいて基本的な役割を果たす。
既存のメソッドでは、インスタンスがデータとして容易に観察できないシステムであるシナリオを扱うのが難しい。
システム埋め込みを学習するエンコーダデコーダモジュールを含むエンドツーエンドアプローチを開発する。
論文 参考訳(メタデータ) (2023-04-21T02:20:24Z) - Many-Objective Reinforcement Learning for Online Testing of DNN-Enabled
Systems [0.6690874707758508]
ディープニューラルネットワーク(DNN)は、自律ダイビングシステム(ADS)のようなサイバー物理システムにおいて現実世界のタスクを実行するために広く利用されている。
このようなDNN-Enabled Systems(DES)の正しい動作を保証することが重要なトピックである。
オンラインテストは、そのようなシステムをクローズドループでアプリケーション環境(シミュレーションまたは現実)でテストするための有望なモードの1つです。
本稿では,強化学習(RL)と多目的探索を組み合わせることで,これらの課題に対処する新しいオンラインテスト手法であるMORLOTを提案する。
論文 参考訳(メタデータ) (2022-10-27T13:53:37Z) - Improving the Performance of Robust Control through Event-Triggered
Learning [74.57758188038375]
LQR問題における不確実性に直面していつ学習するかを決定するイベントトリガー学習アルゴリズムを提案する。
本研究では,ロバストな制御器ベースライン上での性能向上を数値例で示す。
論文 参考訳(メタデータ) (2022-07-28T17:36:37Z) - Dynamic Causal Effects Evaluation in A/B Testing with a Reinforcement
Learning Framework [68.96770035057716]
A/Bテスト(A/B Testing)は、新しい製品を製薬、技術、伝統産業の古い製品と比較するビジネス戦略である。
本稿では,オンライン実験においてA/Bテストを実施するための強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-05T10:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。