論文の概要: AutoML Two-Sample Test
- arxiv url: http://arxiv.org/abs/2206.08843v1
- Date: Fri, 17 Jun 2022 15:41:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-20 12:53:43.502343
- Title: AutoML Two-Sample Test
- Title(参考訳): AutoMLの2サンプルテスト
- Authors: Jonas M. K\"ubler, Vincent Stimper, Simon Buchholz, Krikamol Muandet,
Bernhard Sch\"olkopf
- Abstract要約: 我々は、目撃者の関数の平均的な相違をテスト統計として捉えた単純なテストを使用し、二乗損失を最小限にすれば、最適なテスト能力を持つ目撃者につながることを証明します。
我々はPythonパッケージAutotstでAutoMLの2サンプルテストの実装を提供する。
- 参考スコア(独自算出の注目度): 13.468660785510945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Two-sample tests are important in statistics and machine learning, both as
tools for scientific discovery as well as to detect distribution shifts. This
led to the development of many sophisticated test procedures going beyond the
standard supervised learning frameworks, whose usage can require specialized
knowledge about two-sample testing. We use a simple test that takes the mean
discrepancy of a witness function as the test statistic and prove that
minimizing a squared loss leads to a witness with optimal testing power. This
allows us to leverage recent advancements in AutoML. Without any user input
about the problems at hand, and using the same method for all our experiments,
our AutoML two-sample test achieves competitive performance on a diverse
distribution shift benchmark as well as on challenging two-sample testing
problems.
We provide an implementation of the AutoML two-sample test in the Python
package autotst.
- Abstract(参考訳): 2サンプルテストは統計学と機械学習において重要であり、科学的発見と分布シフトの検出のためのツールである。
これにより、2サンプルテストに関する専門知識を必要とする標準的な教師付き学習フレームワークを超えて、多くの高度なテスト手順の開発につながった。
単純なテストでは、証人関数の平均的不一致をテスト統計として捉え、二乗損失を最小化することで、最適なテスト能力を持つ証人を導くことを証明します。
これにより、AutoMLの最近の進歩を活用することができます。
ユーザの手元にある問題に対する入力が無く、同じ手法をすべての実験に使わずに、AutoMLの2サンプルテストは、多様な分散シフトベンチマーク上での競合性能と、2サンプルテストの問題に挑戦する。
我々はPythonパッケージAutotstでAutoMLの2サンプルテストの実装を提供する。
関連論文リスト
- Test Generation Strategies for Building Failure Models and Explaining
Spurious Failures [4.995172162560306]
テスト入力は、テスト対象のシステムが故障している場合だけでなく、入力が無効または非現実的である場合も失敗する。
テストインプットに対して解釈可能なルールを推論し,重大な障害を引き起こす障害モデルを構築することを提案する。
提案手法は, 平均精度83%の故障モデルを生成する。
論文 参考訳(メタデータ) (2023-12-09T18:36:15Z) - Evaluating the Impact of Flaky Simulators on Testing Autonomous Driving
Systems [2.291478393584594]
シミュレーションに基づく自律運転システム(ADS)のテストにおけるフレキネスの検討
ADSにおけるテストフレキネスは一般的な現象であり,ランダム化アルゴリズムにより得られたテスト結果に大きな影響を及ぼす可能性が示唆された。
我々の機械学習(ML)分類器は、単一のテスト実行のみを使用して、脆弱なADSテストを効果的に識別する。
論文 参考訳(メタデータ) (2023-11-30T18:08:02Z) - Deep anytime-valid hypothesis testing [29.273915933729057]
非パラメトリックなテスト問題に対する強力なシーケンシャルな仮説テストを構築するための一般的なフレームワークを提案する。
テスト・バイ・ベッティング・フレームワーク内で、機械学習モデルの表現能力を活用するための原則的なアプローチを開発する。
合成および実世界のデータセットに関する実証的な結果は、我々の一般的なフレームワークを用いてインスタンス化されたテストが、特殊なベースラインと競合することを示している。
論文 参考訳(メタデータ) (2023-10-30T09:46:19Z) - Efficiently Measuring the Cognitive Ability of LLMs: An Adaptive Testing
Perspective [63.92197404447808]
大きな言語モデル(LLM)は、人間のような認知能力を示している。
LLM評価のための適応テストフレームワークを提案する。
このアプローチは、モデルの性能に基づいて、難易度などのテスト問題の特徴を動的に調整する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Model-Free Sequential Testing for Conditional Independence via Testing
by Betting [8.293345261434943]
提案されたテストでは、任意の依存関係構造を持つ入ってくるi.d.データストリームを分析できる。
重要な結果が検出されれば,オンライン上でのデータポイントの処理を可能とし,データ取得を停止する。
論文 参考訳(メタデータ) (2022-10-01T20:05:33Z) - Test-Time Training with Masked Autoencoders [54.983147122777574]
テストタイムトレーニングは、セルフスーパービジョンを使用して各テスト入力のモデルを最適化することで、新しいテスト分布をオンザフライに適用する。
本稿では,この一サンプル学習問題に対してマスク付きオートエンコーダを用いる。
論文 参考訳(メタデータ) (2022-09-15T17:59:34Z) - TTAPS: Test-Time Adaption by Aligning Prototypes using Self-Supervision [70.05605071885914]
本研究では,単体テストサンプルに適用可能な自己教師付きトレーニングアルゴリズムSwaVの新たな改良を提案する。
ベンチマークデータセットCIFAR10-Cにおいて,本手法の有効性を示す。
論文 参考訳(メタデータ) (2022-05-18T05:43:06Z) - Efficient Test-Time Model Adaptation without Forgetting [60.36499845014649]
テストタイム適応は、トレーニングとテストデータの間の潜在的な分散シフトに取り組むことを目指している。
信頼性および非冗長なサンプルを同定するためのアクティブなサンプル選択基準を提案する。
また、重要なモデルパラメータを劇的な変化から制約するFisher regularizerを導入します。
論文 参考訳(メタデータ) (2022-04-06T06:39:40Z) - Test-Agnostic Long-Tailed Recognition by Test-Time Aggregating Diverse
Experts with Self-Supervision [85.07855130048951]
本研究では,テスト非依存型ロングテール認識(test-agnostic long-tailed recognition)と呼ばれる,より実践的なタスク設定について検討する。
本稿では,多種多様な専門家に異なるテスト分布を扱うように訓練するTADE(Test-time Aggregating Diverse Experts)と呼ばれる新しい手法を提案する。
理論的には,提案手法は未知のテストクラス分布をシミュレートできることを示す。
論文 参考訳(メタデータ) (2021-07-20T04:10:31Z) - TestRank: Bringing Order into Unlabeled Test Instances for Deep Learning
Tasks [14.547623982073475]
ディープラーニングシステムはテストやデバッグが難しいことで有名です。
テストコスト削減のために、テスト選択を行い、選択した“高品質”バグ修正テストインプットのみをラベル付けすることが不可欠である。
本稿では,未ラベルのテストインスタンスに,バグ検出機能,すなわちTestRankに従って順序を付ける新しいテスト優先順位付け手法を提案する。
論文 参考訳(メタデータ) (2021-05-21T03:41:10Z) - Two-Sample Testing on Ranked Preference Data and the Role of Modeling
Assumptions [57.77347280992548]
本稿では,ペアワイズ比較データとランキングデータのための2サンプル試験を設計する。
私たちのテストでは、基本的に分布に関する仮定は必要ありません。
実世界のペアワイズ比較データに2サンプルテストを適用することで、人によって提供される評価とランキングは、実際は異なる分散である、と結論付ける。
論文 参考訳(メタデータ) (2020-06-21T20:51:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。