Fugu-MT 論文翻訳(概要): Examining properness in the external validation of survival models with squared and logarithmic losses

論文の概要: Examining properness in the external validation of survival models with squared and logarithmic losses

arxiv url: http://arxiv.org/abs/2212.05260v2
Date: Mon, 3 Jun 2024 10:16:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-04 23:45:37.326893
Title: Examining properness in the external validation of survival models with squared and logarithmic losses
Title（参考訳）: 正方形・対数的損失を有する生存モデルの外部検証における正当性の検討
Authors: Raphael Sonabend, John Zobolas, Philipp Kopper, Lukas Burk, Andreas Bender,
Abstract要約: 我々は、適切に主張される一般的な採点規則が、例えばISBS(Integrated Survival Brier Score)のような実際不適切なものであることを証明している。適正性の違いにもかかわらず、シミュレーションと実世界のデータセットの実験では、ISBSの不適切なバージョンと適切なバージョンの間に大きな違いは見られない。損失の微妙な違いでさえ、モデルチューニングのような自動化プロセスにおいて重要な意味を持つ可能性があるため、適切なスコアリングルールの使用を引き続き主張する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Scoring rules promote rational and honest decision-making, which is becoming increasingly important for automated procedures in `auto-ML'. In this paper we survey common squared and logarithmic scoring rules for survival analysis and determine which losses are proper and improper. We prove that commonly utilised squared and logarithmic scoring rules that are claimed to be proper are in fact improper, such as the Integrated Survival Brier Score (ISBS). We further prove that under a strict set of assumptions a class of scoring rules is strictly proper for, what we term, `approximate' survival losses. Despite the difference in properness, experiments in simulated and real-world datasets show there is no major difference between improper and proper versions of the widely-used ISBS, ensuring that we can reasonably trust previous experiments utilizing the original score for evaluation purposes. We still advocate for the use of proper scoring rules, as even minor differences between losses can have important implications in automated processes such as model tuning. We hope our findings encourage further research into the properties of survival measures so that robust and honest evaluation of survival models can be achieved.
Abstract（参考訳）: Scoring rulesは合理的で誠実な意思決定を促進する。本稿では,生存分析のための共通二乗法および対数法則を調査し,どの損失が適切で不適切なかを判定する。一般に用いられている正方形および対数的スコアリングルールは、ISBS(Integrated Survival Brier Score)など、実際は不適切であることを示す。さらに、厳密な仮定の下では、スコアリングルールのクラスは、我々が言うところの「近似的」生存損失に対して厳密に適切なものであることを証明します。適正性の違いにもかかわらず、シミュレーションと実世界のデータセットによる実験では、広く使われているISBSの不適切なバージョンと適切なバージョンの間に大きな違いがないことが示され、評価のために元のスコアを利用した以前の実験を合理的に信頼することができる。損失の微妙な違いでさえ、モデルチューニングのような自動化プロセスにおいて重要な意味を持つ可能性があるため、適切なスコアリングルールの使用を引き続き主張する。本研究の成果は, 生存モデルに対する頑健かつ誠実な評価が達成できるように, 生存対策の特性に関するさらなる研究を奨励するものであることを願っている。

関連論文リスト

TULiP: Test-time Uncertainty Estimation via Linearization and Weight Perturbation [11.334867025651233]
OOD検出のための理論駆動型不確実性推定器TULiPを提案する。本手法では,収束前にネットワークに適用される仮説的摂動を考察する。提案手法は,特に近分布試料について,最先端の性能を示す。
論文参考訳（メタデータ） (2025-05-22T17:16:41Z)
SurvUnc: A Meta-Model Based Uncertainty Quantification Framework for Survival Analysis [8.413107141283502]
生存分析は、多くの現実世界の応用、特に医療やリスクアセスメントのような高度な領域において基礎となる。多くの生存モデルが進歩しているにもかかわらず、予測の不確実性の定量化は未熟で困難なままである。生存モデルのためのポストホック不確実性定量化のための新しいメタモデルベースのフレームワークであるSurvUncを紹介する。
論文参考訳（メタデータ） (2025-05-20T18:12:20Z)
Causal Lifting of Neural Representations: Zero-Shot Generalization for Causal Inferences [56.23412698865433]
予測型因果推論(PPCI)に焦点をあてる PPCIは、未ラベルの事実結果を用いた対象実験における治療効果を推定し、事前訓練されたモデルからゼロショットを取得する。バニラ実験的リスク最小化によって解決不可能なインスタンスに対するソリューションを提供するため,本手法を合成および実世界の科学的データに対して検証する。
論文参考訳（メタデータ） (2025-02-10T10:52:17Z)
Bridging Internal Probability and Self-Consistency for Effective and Efficient LLM Reasoning [53.25336975467293]
パープレキシティや自己整合性などの手法の第一理論誤差分解解析について述べる。パープレキシティ法は、適切な整合関数が存在しないため、かなりのモデル誤差に悩まされる。本稿では、自己整合性とパープレキシティを統合したReasoning-Pruning Perplexity Consistency(RPC)と、低確率推論経路を排除したReasoning Pruningを提案する。
論文参考訳（メタデータ） (2025-02-01T18:09:49Z)
A Probabilistic Perspective on Unlearning and Alignment for Large Language Models [48.96686419141881]
大規模言語モデル(LLM)のための最初の形式的確率的評価フレームワークを紹介する。すなわち,モデルの出力分布に関する確率保証の高い新しい指標を提案する。私たちのメトリクスはアプリケーションに依存しないので、デプロイ前にモデル機能についてより信頼性の高い見積を行うことができます。
論文参考訳（メタデータ） (2024-10-04T15:44:23Z)
Controlling Risk of Retrieval-augmented Generation: A Counterfactual Prompting Framework [77.45983464131977]
我々は、RAGモデルの予測が誤りであり、現実のアプリケーションにおいて制御不能なリスクをもたらす可能性がどの程度あるかに焦点を当てる。本研究は,RAGの予測に影響を及ぼす2つの重要な潜伏要因を明らかにする。我々は,これらの要因をモデルに誘導し,その応答に与える影響を解析する,反実的プロンプトフレームワークを開発した。
論文参考訳（メタデータ） (2024-09-24T14:52:14Z)
Is Difficulty Calibration All We Need? Towards More Practical Membership Inference Attacks [16.064233621959538]
我々は,textbfRe-levertextbfA を直接 textbfRe-levertextbfA を用いて mtextbfItigate the error in textbfDifficulty calibration を提案する。
論文参考訳（メタデータ） (2024-08-31T11:59:42Z)
Language Generation with Strictly Proper Scoring Rules [70.340673452404]
本稿では,非局所的なスコアリングルールを用いた言語モデリングが可能な,スコアリングルールを言語生成に適用するための戦略を提案する。対数スコアの代替として、ブライアスコアと球面スコアの2つの古典的厳密なスコアルールを用いて言語生成モデルを訓練する。
論文参考訳（メタデータ） (2024-05-29T09:09:00Z)
Selective Learning: Towards Robust Calibration with Dynamic Regularization [79.92633587914659]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文参考訳（メタデータ） (2024-02-13T11:25:20Z)
TeLeS: Temporal Lexeme Similarity Score to Estimate Confidence in End-to-End ASR [1.8477401359673709]
クラス確率に基づく信頼スコアは、自信過剰なASR予測の品質を正確に表すものではない。信頼度推定モデル(CEM)を訓練するためのTeLeS(Temporal-Lexeme similarity)の信頼性スコアを提案する。我々は、ヒンディー語、タミル語、カナダ語という3つの言語で訓練されたASRモデルを用いて、様々なトレーニングデータサイズで実験を行う。
論文参考訳（メタデータ） (2024-01-06T16:29:13Z)
Robust Linear Regression: Phase-Transitions and Precise Tradeoffs for General Norms [29.936005822346054]
線形回帰モデルに対するテスト時間逆行攻撃の影響について検討する。標準予測性能(正確性)の所定のレベルを維持しながら、どのモデルでも到達できる最適なロバストネスのレベルを決定する。我々は、標準的な精度を損なうことなく、ロバスト性が達成可能なレジームと、トレードオフが避けられないレジームとを区別する正確なキャラクタリゼーションを得る。
論文参考訳（メタデータ） (2023-08-01T13:55:45Z)
Large Class Separation is not what you need for Relational Reasoning-based OOD Detection [12.578844450586]
Out-Of-Distribution (OOD) 検出法はセマンティックノベルティを識別して解を提供する。これらの手法の多くは、既知のデータの学習段階を利用しており、これは正規性の概念を捉えるためのモデル(または微調整)を訓練することを意味する。実行可能な代替手段は、大きな事前訓練されたモデルによって生成された埋め込み空間の類似性を評価することであり、それ以上の学習は行わない。
論文参考訳（メタデータ） (2023-07-12T14:10:15Z)
When Does Confidence-Based Cascade Deferral Suffice? [69.28314307469381]
カスケードは、推論コストをサンプル毎に適応的に変化させる古典的な戦略である。 deferralルールは、シーケンス内の次の分類子を呼び出すか、または予測を終了するかを決定する。カスケードの構造に執着しているにもかかわらず、信頼に基づく推論は実際は極めてうまく機能することが多い。
論文参考訳（メタデータ） (2023-07-06T04:13:57Z)
Evaluating AI systems under uncertain ground truth: a case study in dermatology [44.80772162289557]
本稿では,アノテーションの不確実性を測定するための指標を提案し,評価のための不確実性調整指標を提案する。本稿では,本フレームワークを皮膚条件分類に応用した症例スタディとして,アノテーションを診断の形で提供した画像について述べる。
論文参考訳（メタデータ） (2023-07-05T10:33:45Z)
An Effective Meaningful Way to Evaluate Survival Models [34.21432603301076]
実際には、テストセットには検閲された個人が含まれています。本稿では,現実的な半合成サバイバルデータセットを生成するための,新しい効果的なアプローチを提案する。提案手法では,モデルの性能に基づいて精度の高いランク付けが可能であり,しばしば真のMAEと密接に一致している。
論文参考訳（メタデータ） (2023-06-01T23:22:46Z)
Improving Adaptive Conformal Prediction Using Self-Supervised Learning [72.2614468437919]
我々は、既存の予測モデルの上に自己教師付きプレテキストタスクを持つ補助モデルを訓練し、自己教師付きエラーを付加的な特徴として用いて、非整合性スコアを推定する。合成データと実データの両方を用いて、効率(幅)、欠陥、共形予測間隔の超過といった付加情報の利点を実証的に実証する。
論文参考訳（メタデータ） (2023-02-23T18:57:14Z)
Improved Policy Evaluation for Randomized Trials of Algorithmic Resource Allocation [54.72195809248172]
提案する新しい概念を応用した新しい推定器を提案する。我々は,このような推定器が,サンプル手段に基づく一般的な推定器よりも精度が高いことを理論的に証明した。
論文参考訳（メタデータ） (2023-02-06T05:17:22Z)
Arbitrariness and Social Prediction: The Confounding Role of Variance in Fair Classification [31.392067805022414]
異なる訓練されたモデル間での予測のばらつきは、公正なバイナリ分類における重要な、未探索のエラーの原因である。実際には、いくつかのデータ例のばらつきは非常に大きいので、決定を効果的に任意にすることができる。予測が任意である場合に分類を省略するアンサンブルアルゴリズムを開発した。
論文参考訳（メタデータ） (2023-01-27T06:52:04Z)
A Call to Reflect on Evaluation Practices for Failure Detection in Image Classification [0.491574468325115]
本稿では,信頼度評価関数のベンチマーク化を初めて実現した大規模実証的研究について述べる。簡便なソフトマックス応答ベースラインを全体の最高の実行方法として明らかにすることは、現在の評価の劇的な欠点を浮き彫りにする。
論文参考訳（メタデータ） (2022-11-28T12:25:27Z)
Uncertainty Estimates of Predictions via a General Bias-Variance Decomposition [7.811916700683125]
本稿では,適切なスコアに対するバイアス分散分解を導入し,分散項としてブレグマン情報を導出する。モデルアンサンブルや信頼領域を含む下流タスクにおけるこの分解の実践的妥当性を示す。
論文参考訳（メタデータ） (2022-10-21T21:24:37Z)
Post-Contextual-Bandit Inference [57.88785630755165]
コンテキストバンディットアルゴリズムは、電子商取引、医療、政策立案における非適応的なA/Bテストを置き換える傾向にある。研究参加者の成果を改善することもでき、良い方針や最良の政策を特定できる可能性を高めることもできる。研究の終盤における新規介入の信頼性推論を支援するため, 平均治療効果, サブグループ効果, あるいは新政策の価値について, 有効な信頼区間を構築したい。
論文参考訳（メタデータ） (2021-06-01T12:01:51Z)
Don't Just Blame Over-parametrization for Over-confidence: Theoretical Analysis of Calibration in Binary Classification [58.03725169462616]
理論上は、過剰パラメトリゼーションは過剰信頼の唯一の理由ではない。我々は、ロジスティック回帰は本質的に信頼過剰であり、実現可能で、非パラメータな設定であることを示す。おそらく驚くことに、過剰な信頼が常にそうであるとは限らないことも示します。
論文参考訳（メタデータ） (2021-02-15T21:38:09Z)
Trust but Verify: Assigning Prediction Credibility by Counterfactual Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文参考訳（メタデータ） (2020-11-24T19:52:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。