論文の概要: Four Facets of Forecast Felicity: Calibration, Predictiveness,
Randomness and Regret
- arxiv url: http://arxiv.org/abs/2401.14483v1
- Date: Thu, 25 Jan 2024 19:36:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-01-29 16:48:21.191470
- Title: Four Facets of Forecast Felicity: Calibration, Predictiveness,
Randomness and Regret
- Title(参考訳): 予測フェリシティの4つの側面:キャリブレーション、予測性、ランダム性、後悔
- Authors: Rabanus Derr and Robert C. Williamson
- Abstract要約: 予測評価における校正と後悔の概念的等価性を示す。
評価問題を予測器とギャンブラーと自然とのゲームとして構成する。
- 参考スコア(独自算出の注目度): 9.7902367664742
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Machine learning is about forecasting. Forecasts, however, obtain their
usefulness only through their evaluation. Machine learning has traditionally
focused on types of losses and their corresponding regret. Currently, the
machine learning community regained interest in calibration. In this work, we
show the conceptual equivalence of calibration and regret in evaluating
forecasts. We frame the evaluation problem as a game between a forecaster, a
gambler and nature. Putting intuitive restrictions on gambler and forecaster,
calibration and regret naturally fall out of the framework. In addition, this
game links evaluation of forecasts to randomness of outcomes. Random outcomes
with respect to forecasts are equivalent to good forecasts with respect to
outcomes. We call those dual aspects, calibration and regret, predictiveness
and randomness, the four facets of forecast felicity.
- Abstract(参考訳): 機械学習は予測することです。
しかし、予測は評価によってのみ有用性を得る。
機械学習は伝統的に、損失の種類とそれに対応する後悔に焦点を当ててきた。
現在、機械学習コミュニティは校正への関心を取り戻している。
本研究では,予測評価における校正と後悔の概念的等価性を示す。
評価問題を予測器とギャンブラーと自然とのゲームとして構成する。
ギャンブラーと予測器に直感的な制限を加えると、キャリブレーションと後悔はフレームワークから自然に抜け出します。
また,このゲームは予測評価と結果のランダム性を関連付ける。
予測に関するランダムな結果は、結果に関して良い予測と等価である。
これら2つの側面、キャリブレーションと後悔、予測性とランダム性、予測フェリシティの4つの側面を呼ぶ。
関連論文リスト
- Metric Design != Metric Behavior: Improving Metric Selection for the Unbiased Evaluation of Dimensionality Reduction [10.099350224451387]
次元減少(DR)プロジェクションは、信頼できる視覚分析に不可欠である。
DRプロジェクションは、非常に相関性の高いメトリクス、同様の構造特性を計測した場合、不注意に選択される場合、バイアスとなる可能性がある。
本研究では,評価指標の選択におけるバイアスを,経験的相関に基づくクラスタリングによって低減する新しいワークフローを提案する。
論文 参考訳(メタデータ) (2025-07-03T01:07:02Z) - Contextual Metric Meta-Evaluation by Measuring Local Metric Accuracy [52.261323452286554]
本稿では,評価指標の局所的メートル法精度を比較することによって,文脈的メタ評価手法を提案する。
翻訳,音声認識,ランキングタスクを通じて,局所的計量精度が絶対値と相対的有効性の両方で異なることを示す。
論文 参考訳(メタデータ) (2025-03-25T16:42:25Z) - Consistency Checks for Language Model Forecasters [54.62507816753479]
予測器の性能を,論理的に異なる質問に対する予測の整合性の観点から測定する。
我々は,一連の基本質問を生成し,これらの質問から整合性チェックをインスタンス化し,予測者の予測を導き,予測の整合性を測定する自動評価システムを構築した。
論文 参考訳(メタデータ) (2024-12-24T16:51:35Z) - Hybrid Forecasting of Geopolitical Events [71.73737011120103]
SAGEは、人間と機械が生成した予測を組み合わせたハイブリッド予測システムである。
このシステムは、確率と評価されたスキルに基づいて、人間と機械の予測の重み付けを集約する。
機械による予測にアクセスできる熟練した予測者は、過去のデータしか見ていない者よりも優れていた。
論文 参考訳(メタデータ) (2024-12-14T22:09:45Z) - Ranking evaluation metrics from a group-theoretic perspective [5.333192842860574]
一般的に使用される指標において、不整合評価や潜在的な不信の原因となる事例を示す。
分析では,不整合性評価を不信の原因とみなすべきではないことを強調し,評価指標のランク付けに光を当てた。
論文 参考訳(メタデータ) (2024-08-14T09:06:58Z) - Performative Prediction on Games and Mechanism Design [69.7933059664256]
エージェントが過去の正確性に基づいて予測を信頼するかを判断する集団リスクジレンマについて検討する。
予測が集合的な結果を形成するにつれて、社会福祉は関心の指標として自然に現れる。
よりよいトレードオフを実現し、それらをメカニズム設計に使用する方法を示します。
論文 参考訳(メタデータ) (2024-08-09T16:03:44Z) - Calibrating Bayesian UNet++ for Sub-Seasonal Forecasting [10.412055701639682]
季節予測は、気候変動による極端な暑さや寒さを検出する上で重要な課題である。
1年間の気温の上昇が世界に大きな影響を与えるため、予測の信頼性は信頼されるべきだ」と述べた。
予測誤差と校正誤差との多少のトレードオフにより、より信頼性が高く、よりシャープな予測が得られることを示す。
論文 参考訳(メタデータ) (2024-03-25T10:42:48Z) - ExtremeCast: Boosting Extreme Value Prediction for Global Weather Forecast [57.6987191099507]
非対称な最適化を行い、極端な天気予報を得るために極端な値を強調する新しい損失関数であるExlossを導入する。
また,複数のランダムサンプルを用いて予測結果の不確かさをキャプチャするExBoosterについても紹介する。
提案手法は,上位中距離予測モデルに匹敵する全体的な予測精度を維持しつつ,極端気象予測における最先端性能を達成することができる。
論文 参考訳(メタデータ) (2024-02-02T10:34:13Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - Performative Time-Series Forecasting [71.18553214204978]
我々は,機械学習の観点から,パフォーマンス時系列予測(PeTS)を定式化する。
本稿では,予測分布シフトに対する遅延応答の概念を活用する新しい手法であるFeature Performative-Shifting(FPS)を提案する。
新型コロナウイルスの複数の時系列モデルと交通予報タスクを用いた総合的な実験を行った。
論文 参考訳(メタデータ) (2023-10-09T18:34:29Z) - Evaluating Evaluation Metrics: A Framework for Analyzing NLG Evaluation
Metrics using Measurement Theory [46.06645793520894]
MetricEvalは、NLG評価指標の信頼性と妥当性を概念化し、評価するためのフレームワークである。
我々は,信頼性の高い指標の設計,評価,解釈を推進し,堅牢で効果的なNLGモデルを推し進めることを目的としている。
論文 参考訳(メタデータ) (2023-05-24T08:38:23Z) - Evaluating Probabilistic Classifiers: The Triptych [62.997667081978825]
本稿では,予測性能の異なる相補的な側面に焦点をあてた診断グラフィックのトリチチを提案し,研究する。
信頼性図は校正に対処し、受信動作特性(ROC)曲線は識別能力を診断し、マーフィー図は全体的な予測性能と価値を視覚化する。
論文 参考訳(メタデータ) (2023-01-25T19:35:23Z) - Forecast Hedging and Calibration [8.858351266850544]
我々は予測ヘッジの概念を開発し、予測されたトラック記録が改善できることを保証するために予測を選択する。
これにより、全てのキャリブレーション結果が同じ単純な引数で得られ、一方、それらが使用する予測ヘッジツールによって区別される。
その他のコントリビューションとしては、継続的なキャリブレーションの定義の改善、長期にわたってナッシュリリアをもたらすゲームダイナミクス、既知のすべての手順よりも単純なバイナリイベントの予測手順などがある。
論文 参考訳(メタデータ) (2022-10-13T16:48:25Z) - Defect Prediction Using Stylistic Metrics [2.286041284499166]
本稿では,プロジェクト内およびプロジェクト内欠陥予測におけるスタイリスティックな指標の影響を分析することを目的とする。
実験は5つの人気のあるオープンソースプロジェクトの14のリリースで実施されている。
論文 参考訳(メタデータ) (2022-06-22T10:11:05Z) - Evaluation of Machine Learning Techniques for Forecast Uncertainty
Quantification [0.13999481573773068]
アンサンブル予測は、これまでのところ、関連する予測を生成するための最も成功したアプローチであり、その不確実性を見積もっている。
アンサンブル予測の主な制限は、高い計算コストと異なる不確実性の源を捕捉し定量化することの難しさである。
本研究は,1つの決定論的予測のみを入力として,システムの修正状態と状態不確かさを予測するために訓練されたANNの性能を評価するための概念モデル実験である。
論文 参考訳(メタデータ) (2021-11-29T16:52:17Z) - Learning to Predict Trustworthiness with Steep Slope Loss [69.40817968905495]
本研究では,現実の大規模データセットにおける信頼性の予測問題について検討する。
我々は、先行技術損失関数で訓練された信頼性予測器が、正しい予測と誤った予測の両方を信頼に値するものとみなす傾向があることを観察する。
そこで我々は,2つのスライド状の曲線による不正確な予測から,特徴w.r.t.正しい予測を分離する,新たな急勾配損失を提案する。
論文 参考訳(メタデータ) (2021-09-30T19:19:09Z) - Unifying Gradient Estimators for Meta-Reinforcement Learning via
Off-Policy Evaluation [53.83642844626703]
オフ・ポリシー評価に基づいて,高次値関数の高次微分を推定するための統一フレームワークを提供する。
本フレームワークは, ヘッセン推定の偏りと分散トレードオフを解明する特別事例として, 多くの先行的アプローチを解釈する。
論文 参考訳(メタデータ) (2021-06-24T15:58:01Z) - REAM$\sharp$: An Enhancement Approach to Reference-based Evaluation
Metrics for Open-domain Dialog Generation [63.46331073232526]
オープンドメイン対話システムにおける参照ベースのEvAluation Metricsの拡張手法を提案する。
予測モデルは、与えられた基準セットの信頼性を推定するように設計されている。
本稿では,その予測結果が参照集合の増大にどのように役立つかを示し,測定値の信頼性を向上させる。
論文 参考訳(メタデータ) (2021-05-30T10:04:13Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z) - Individual Calibration with Randomized Forecasting [116.2086707626651]
予測値がランダムに設定された場合,各サンプルのキャリブレーションは回帰設定で可能であることを示す。
我々は、個別の校正を強制する訓練目標を設計し、それをランダム化された回帰関数の訓練に使用する。
論文 参考訳(メタデータ) (2020-06-18T05:53:10Z) - Performance metrics for intervention-triggering prediction models do not
reflect an expected reduction in outcomes from using the model [71.9860741092209]
臨床研究者はしばしばリスク予測モデルの中から選択し評価する。
振り返りデータから算出される標準メトリクスは、特定の仮定の下でのみモデルユーティリティに関係します。
予測が時間を通して繰り返し配信される場合、標準メトリクスとユーティリティの関係はさらに複雑になる。
論文 参考訳(メタデータ) (2020-06-02T16:26:49Z) - Performative Prediction [31.876692592395777]
本研究では,統計学,ゲーム理論,因果関係から概念を取り入れたパフォーマンス予測フレームワークを開発する。
概念的新奇性(conceptual novelty)は、私たちがパフォーマンス安定性と呼ぶ平衡概念である。
我々の主な成果は、ほぼ最小損失の演奏安定点への再訓練の収束に必要な十分条件である。
論文 参考訳(メタデータ) (2020-02-16T20:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。