論文の概要: What Do Learned Models Measure?
- arxiv url: http://arxiv.org/abs/2601.18278v1
- Date: Mon, 26 Jan 2026 09:00:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.750472
- Title: What Do Learned Models Measure?
- Title(参考訳): 学習したモデルは何を測るのか?
- Authors: Indrė Žliobaitė,
- Abstract要約: 多くの科学的およびデータ駆動の応用において、機械学習モデルは計測機器としてますます使われている。
一般化誤差,キャリブレーション,ロバスト性などの機械学習の標準評価基準は,測定安定性を保証していないことを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In many scientific and data-driven applications, machine learning models are increasingly used as measurement instruments, rather than merely as predictors of predefined labels. When the measurement function is learned from data, the mapping from observations to quantities is determined implicitly by the training distribution and inductive biases, allowing multiple inequivalent mappings to satisfy standard predictive evaluation criteria. We formalize learned measurement functions as a distinct focus of evaluation and introduce measurement stability, a property capturing invariance of the measured quantity across admissible realizations of the learning process and across contexts. We show that standard evaluation criteria in machine learning, including generalization error, calibration, and robustness, do not guarantee measurement stability. Through a real-world case study, we show that models with comparable predictive performance can implement systematically inequivalent measurement functions, with distribution shift providing a concrete illustration of this failure. Taken together, our results highlight a limitation of existing evaluation frameworks in settings where learned model outputs are identified as measurements, motivating the need for an additional evaluative dimension.
- Abstract(参考訳): 多くの科学的およびデータ駆動の応用において、機械学習モデルは単に事前に定義されたラベルの予測子としてではなく、測定器として使われるようになっている。
データから測定関数が学習されると、トレーニング分布と誘導バイアスによって観測から量へのマッピングが暗黙的に決定され、複数の非等価写像が標準的な予測評価基準を満たす。
そこで我々は,学習過程の許容可能実現と文脈を越えた測定量の不変性を捉える特性として,評価の焦点として学習された測定関数を定式化し,測定安定性を導入する。
一般化誤差,キャリブレーション,ロバスト性などの機械学習の標準評価基準は,測定安定性を保証していないことを示す。
実世界のケーススタディを通じて、予測性能に匹敵するモデルが、この故障の具体的な例を示す分布シフトを伴って、体系的に等価な測定関数を実装可能であることを示す。
その結果,学習したモデル出力を測定値として認識する設定において,既存の評価フレームワークの制限が強調され,さらなる評価次元の必要性が示唆された。
関連論文リスト
- A comprehensive review of classifier probability calibration metrics [0.0]
AIとMLモデルが生成する確率や信頼度は、その真の正確さを反映しないことが多い。
確率キャリブレーション測度は、信頼性と精度の差を測定する。
論文 参考訳(メタデータ) (2025-04-25T11:44:44Z) - Developing a Dataset-Adaptive, Normalized Metric for Machine Learning Model Assessment: Integrating Size, Complexity, and Class Imbalance [0.0]
精度、F1スコア、精度といった従来のメトリクスは、機械学習モデルを評価するために頻繁に使用される。
サイズ、特徴次元、クラス不均衡、信号対雑音比といったデータセット特性を取り入れたデータセット適応型正規化メトリックを示す。
論文 参考訳(メタデータ) (2024-12-10T07:10:00Z) - Robustness investigation of cross-validation based quality measures for model assessment [0.0]
機械学習モデルの予測品質は、クロスバリデーションアプローチに基づいて評価される。
提案手法は,モデル予測における説明された変動量の定量化である。
論文 参考訳(メタデータ) (2024-08-08T11:51:34Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - Improving Adaptive Conformal Prediction Using Self-Supervised Learning [72.2614468437919]
我々は、既存の予測モデルの上に自己教師付きプレテキストタスクを持つ補助モデルを訓練し、自己教師付きエラーを付加的な特徴として用いて、非整合性スコアを推定する。
合成データと実データの両方を用いて、効率(幅)、欠陥、共形予測間隔の超過といった付加情報の利点を実証的に実証する。
論文 参考訳(メタデータ) (2023-02-23T18:57:14Z) - Variable Importance Matching for Causal Inference [73.25504313552516]
これらの目標を達成するためのModel-to-Matchと呼ばれる一般的なフレームワークについて説明する。
Model-to-Matchは、距離メートル法を構築するために変数重要度測定を使用する。
LASSO を用いて Model-to-Match フレームワークを運用する。
論文 参考訳(メタデータ) (2023-02-23T00:43:03Z) - Rigorous Assessment of Model Inference Accuracy using Language
Cardinality [5.584832154027001]
我々は,統計的推定を決定論的精度尺度に置き換えることで,モデル精度評価におけるバイアスと不確実性を最小化する体系的アプローチを開発する。
我々は、最先端の推論ツールによって推定されるモデルの精度を評価することによって、我々のアプローチの一貫性と適用性を実験的に実証した。
論文 参考訳(メタデータ) (2022-11-29T21:03:26Z) - Post-hoc Models for Performance Estimation of Machine Learning Inference [22.977047604404884]
さまざまなシナリオにおいて、推論中に機械学習モデルがどれだけうまく機能するかを推定することが重要である。
性能評価をさまざまなメトリクスやシナリオに体系的に一般化する。
提案したポストホックモデルは標準信頼ベースラインを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2021-10-06T02:20:37Z) - How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating
and Auditing Generative Models [95.8037674226622]
ドメインに依存しない方法で生成モデルの忠実度,多様性,一般化性能を特徴付ける3次元評価指標を提案する。
当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。
論文 参考訳(メタデータ) (2021-02-17T18:25:30Z) - Performance metrics for intervention-triggering prediction models do not
reflect an expected reduction in outcomes from using the model [71.9860741092209]
臨床研究者はしばしばリスク予測モデルの中から選択し評価する。
振り返りデータから算出される標準メトリクスは、特定の仮定の下でのみモデルユーティリティに関係します。
予測が時間を通して繰り返し配信される場合、標準メトリクスとユーティリティの関係はさらに複雑になる。
論文 参考訳(メタデータ) (2020-06-02T16:26:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。