論文の概要: Test-time Assessment of a Model's Performance on Unseen Domains via Optimal Transport
- arxiv url: http://arxiv.org/abs/2405.01451v1
- Date: Thu, 2 May 2024 16:35:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-03 15:55:39.740093
- Title: Test-time Assessment of a Model's Performance on Unseen Domains via Optimal Transport
- Title(参考訳): 最適輸送による未確認領域におけるモデルの性能の試験時間評価
- Authors: Akshay Mehra, Yunbei Zhang, Jihun Hamm,
- Abstract要約: テスト時に見えないドメインのデータに対して、MLモデルのパフォーマンスを評価することが不可欠です。
テスト時にモデルのパフォーマンスを洞察できるメトリクスを開発することが不可欠です。
本稿では,未知領域におけるモデルの性能と高い相関関係を持つ最適輸送量に基づく計量を提案する。
- 参考スコア(独自算出の注目度): 8.425690424016986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gauging the performance of ML models on data from unseen domains at test-time is essential yet a challenging problem due to the lack of labels in this setting. Moreover, the performance of these models on in-distribution data is a poor indicator of their performance on data from unseen domains. Thus, it is essential to develop metrics that can provide insights into the model's performance at test time and can be computed only with the information available at test time (such as their model parameters, the training data or its statistics, and the unlabeled test data). To this end, we propose a metric based on Optimal Transport that is highly correlated with the model's performance on unseen domains and is efficiently computable only using information available at test time. Concretely, our metric characterizes the model's performance on unseen domains using only a small amount of unlabeled data from these domains and data or statistics from the training (source) domain(s). Through extensive empirical evaluation using standard benchmark datasets, and their corruptions, we demonstrate the utility of our metric in estimating the model's performance in various practical applications. These include the problems of selecting the source data and architecture that leads to the best performance on data from an unseen domain and the problem of predicting a deployed model's performance at test time on unseen domains. Our empirical results show that our metric, which uses information from both the source and the unseen domain, is highly correlated with the model's performance, achieving a significantly better correlation than that obtained via the popular prediction entropy-based metric, which is computed solely using the data from the unseen domain.
- Abstract(参考訳): テスト時に見えないドメインのデータに対してMLモデルのパフォーマンスを評価することは、この設定にラベルがないため、非常に難しい問題である。
さらに、これらのモデルが非配信データ上でのパフォーマンスは、目に見えないドメインのデータに対するパフォーマンスの指標として不十分である。
したがって、テスト時にモデルのパフォーマンスに関する洞察を提供し、テスト時に利用可能な情報(モデルパラメータ、トレーニングデータまたはその統計、ラベル付けされていないテストデータなど)でのみ計算できるメトリクスを開発することが不可欠である。
そこで本研究では,未確認領域におけるモデルの性能と高い相関性を持ち,テスト時に利用可能な情報のみを用いて効率的に計算可能な最適輸送に基づくメトリクスを提案する。
具体的には、これらのドメインから少量のラベルなしデータとトレーニング(ソース)ドメインからのデータや統計を用いて、未確認領域におけるモデルの性能を特徴付ける。
標準ベンチマークデータセットを用いた広範な経験的評価と,その破損から,様々な応用におけるモデルの性能を推定する上で,我々の測定値の有用性を実証する。
これには、目に見えないドメインからデータに対する最高のパフォーマンスをもたらすソースデータとアーキテクチャの選択の問題と、目に見えないドメインでテスト時にデプロイされたモデルのパフォーマンスを予測する問題が含まれる。
実験結果から, 情報源と未知領域の両方からの情報を用いた計量は, モデルの性能と高い相関関係を示し, 未知領域のデータのみを用いて計算される一般的な予測エントロピーに基づく計量よりも, はるかに優れた相関関係が得られた。
関連論文リスト
- Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。
既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。
本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文 参考訳(メタデータ) (2024-06-16T17:09:24Z) - Determining Domain of Machine Learning Models using Kernel Density Estimates: Applications in Materials Property Prediction [1.8551396341435895]
我々は,カーネル密度推定を用いたモデル領域の評価手法を開発した。
確立された化学知識に基づく無関係と判断された化学物質群は,本測定値と有意な相違が認められた。
相違性の高い尺度は、モデル性能の低さとモデル不確実性の評価の低さと関連している。
論文 参考訳(メタデータ) (2024-05-28T15:41:16Z) - Exploring validation metrics for offline model-based optimisation with
diffusion models [50.404829846182764]
モデルベース最適化(MBO)では、マシンラーニングを使用して、(基底真理)オラクルと呼ばれるブラックボックス関数に対する報酬の尺度を最大化する候補を設計することに興味があります。
モデル検証中に基底オラクルに対する近似をトレーニングし、その代わりに使用することができるが、その評価は近似的であり、敵の例に対して脆弱である。
本手法は,外挿量を測定するために提案した評価フレームワークにカプセル化されている。
論文 参考訳(メタデータ) (2022-11-19T16:57:37Z) - DATa: Domain Adaptation-Aided Deep Table Detection Using Visual-Lexical
Representations [2.542864854772221]
DATaと呼ばれる新しいドメイン適応型ディープテーブル検出手法を提案する。
信頼できるラベルがほとんどない特定のターゲットドメインで十分なパフォーマンスを保証します。
実験の結果,DATaは対象領域における視覚的表現のみを利用する競合手法よりもかなり優れていた。
論文 参考訳(メタデータ) (2022-11-12T12:14:16Z) - Striving for data-model efficiency: Identifying data externalities on
group performance [75.17591306911015]
信頼できる、効果的で責任ある機械学習システムの構築は、トレーニングデータとモデリング決定の違いが、予測パフォーマンスにどのように影響するかを理解することに集中する。
我々は、特定のタイプのデータモデル非効率性に注目し、一部のソースからトレーニングデータを追加することで、集団の重要なサブグループで評価されるパフォーマンスを実際に低下させることができる。
以上の結果から,データ効率が正確かつ信頼性の高い機械学習の鍵となることが示唆された。
論文 参考訳(メタデータ) (2022-11-11T16:48:27Z) - Assessing Out-of-Domain Language Model Performance from Few Examples [38.245449474937914]
ドメイン外性能(OOD)を数ショットで予測するタスクに対処する。
数ショットの例でモデル精度をみると、このタスクのパフォーマンスをベンチマークする。
帰属に基づく要因がOODの相対モデルの性能のランク付けに有効であることを示す。
論文 参考訳(メタデータ) (2022-10-13T04:45:26Z) - Firenze: Model Evaluation Using Weak Signals [5.723905680436377]
本稿では,機械学習モデルの性能比較のための新しいフレームワークFirenzeを紹介する。
興味領域と呼ばれるサンプルの特定のサブセットに対して計算・結合されたマーカーは、実世界のパフォーマンスを頑健に見積もることができることを示す。
論文 参考訳(メタデータ) (2022-07-02T13:20:38Z) - Utilizing Out-Domain Datasets to Enhance Multi-Task Citation Analysis [4.526582372434088]
引用感情分析は、データセットアノテーションの不足と膨大なコストの両方に悩まされている。
モデルパフォーマンスを向上させるため、トレーニング中のドメイン外データの影響について検討する。
本稿では,感情分析と意図分析を対象とする,エンドツーエンドのトレーニング可能なマルチタスクモデルを提案する。
論文 参考訳(メタデータ) (2022-02-22T13:33:48Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。