論文の概要: Pointwise Metrics Mislead: An Evaluation Protocol for Multimodal Inverse Problems
- arxiv url: http://arxiv.org/abs/2605.22891v1
- Date: Thu, 21 May 2026 13:30:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.027029
- Title: Pointwise Metrics Mislead: An Evaluation Protocol for Multimodal Inverse Problems
- Title(参考訳): ポイントワイズ・メトリックス・ミスリード:マルチモーダル逆問題評価プロトコル
- Authors: Mads H. Baattrup, Jörn Bach, Laurids Jeppe, Finn Labe, Alexander Grohsjean, Christian Schwanenberger, Peer Stelldinger,
- Abstract要約: マルチモーダル後部における逆問題に対して,低い誤差がより良い再構成を意味するという暗黙の仮定が構造的に失敗することを示す。
本稿では,各ステップがフェールモードを目標とし,他のステップが見逃すような3部評価プロトコルを提案する。
- 参考スコア(独自算出の注目度): 33.72751145910978
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluation in scientific reconstruction is dominated by pointwise metrics - RMSE, MAE, per-event resolution - under the implicit assumption that lower error means better reconstruction. We show that this assumption fails structurally for inverse problems with multimodal posteriors. By the law of total variance, point estimators trained to minimize MSE or MAE produce a marginal spectrum strictly narrower than the truth whenever the posterior has nonzero width. The resulting bias is independent of architecture, training, and dataset size, and it compresses precisely the spectral features - tails, modes, shapes - that downstream scientific measurements rely on. We propose a three-part evaluation protocol where each step targets a failure mode the others miss: per-event distributional accuracy via CRPS, population-level marginal accuracy via a spectrum-fidelity diagnostic, and uncertainty trustworthiness via coverage-based calibration. On a synthetic benchmark with an analytic posterior and on a realistic many-to-one inverse problem from particle physics, model rankings reverse between pointwise and distributional metrics, and calibration further separates architectures indistinguishable under CRPS. The evaluation protocol, not the model, determines the scientific conclusion.
- Abstract(参考訳): 科学的再構成の評価はRMSE, MAE, per-event resolution というポイントワイドな指標によって支配され、低いエラーはより良い再構成を意味するという暗黙の仮定の下で行われる。
この仮定は、マルチモーダル後部を持つ逆問題に対して構造的に失敗することを示す。
完全分散の法則により、MSE や MAE を最小化するために訓練された点推定器は、後部が非ゼロ幅を持つ場合、真理よりも厳密に狭いスペクトルを生成する。
結果として生じるバイアスは、アーキテクチャ、トレーニング、データセットのサイズとは独立しており、下流の科学的測定に依存するスペクトルの特徴(テール、モード、形状)を正確に圧縮する。
本稿では,各ステップが失敗モードを目標とする3部評価プロトコルを提案する。CRPSによる分布毎の精度,スペクトル忠実度診断による集団レベルの限界精度,カバレッジベースのキャリブレーションによる不確実性評価である。
解析的後部および素粒子物理学からの現実的な多対一逆問題による合成ベンチマークにおいて、モデルランキングは点方向と分布的メトリクスの間で逆転し、キャリブレーションはさらにCRPSの下で区別できないアーキテクチャを分離する。
評価プロトコルは、モデルではなく、科学的結論を決定する。
関連論文リスト
- Discovery of Hidden Miscalibration Regimes [52.452902154360565]
モデルは何らかの入力を体系的に過信し、他人を過信することがある。
対応する誤校正分野を定義し,それを推定するための診断フレームワークを提案する。
提案手法は,入力空間のキャリブレーションを意識した表現を学習し,学習幾何学におけるカーネルの平滑化による符号付き局所的誤校正を推定する。
論文 参考訳(メタデータ) (2026-05-13T13:07:50Z) - Nonparametric Distribution Regression Re-calibration [3.0204520109309847]
全体的な予測誤差の最小化は、キャリブレーションよりも情報を優先することをモデルに推奨する。
安全クリティカルな設定では、信頼に値する不確実性推定は狭い間隔よりも価値があることが多い。
条件付きカーネル平均埋め込みに基づく新しい非パラメトリック再校正アルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-02-13T11:48:43Z) - Post-processing optimization and optimal bounds for non-adaptive shadow tomography [0.12234742322758417]
オーバーコンプリートPOVMは、多くのトモグラフィーおよび推定タスクにおいて、最小限の完全な測定を上回ることが知られている。
我々は、凸最小値問題として再構成係数の選択を定式化し、収束を保証するアルゴリズムを与える。
数値的な例は、結果として得られる推定器がサンプリングの複雑さを劇的に減らすことを示している。
論文 参考訳(メタデータ) (2026-01-22T19:01:01Z) - MS-ISSM: Objective Quality Assessment of Point Clouds Using Multi-scale Implicit Structural Similarity [65.85858856481131]
点雲の非構造的で不規則な性質は、客観的品質評価(PCQA)に重大な課題をもたらす
マルチスケールインシシシット構造類似度測定(MS-ISSM)を提案する。
論文 参考訳(メタデータ) (2026-01-03T14:58:52Z) - Revisiting Multivariate Time Series Forecasting with Missing Values [65.30332997607141]
現実の時系列では欠落値が一般的である。
現在のアプローチでは、計算モジュールを使用して、不足した値を補う、計算済みの予測フレームワークが開発されている。
このフレームワークは、致命的な問題を見落としている: 欠落した値に対して基礎的な真理は存在せず、予測精度を劣化させる可能性のあるエラーの影響を受けやすいようにしている。
本稿では,Information Bottleneck原則に基づく新しいフレームワークであるConsistency-Regularized Information Bottleneck(CRIB)を紹介する。
論文 参考訳(メタデータ) (2025-09-27T20:57:48Z) - A Deep Bayesian Nonparametric Framework for Robust Mutual Information Estimation [9.68824512279232]
相互情報(MI)は、変数間の依存関係をキャプチャするための重要な手段である。
正規化を組み込むためにディリクレ過程後部の有限表現でMI損失を構成することでMI推定器を訓練するソリューションを提案する。
データ空間と変分オートエンコーダの潜時空間の間のMIを最大化するための推定器の適用について検討する。
論文 参考訳(メタデータ) (2025-03-11T21:27:48Z) - Bayesian Uncertainty Estimation of Learned Variational MRI
Reconstruction [63.202627467245584]
我々は,モデル不連続な不確かさを定量化するベイズ変分フレームワークを提案する。
提案手法はMRIのアンダーサンプを用いた再建術の術後成績を示す。
論文 参考訳(メタデータ) (2021-02-12T18:08:14Z) - Reducing the Variance of Variational Estimates of Mutual Information by
Limiting the Critic's Hypothesis Space to RKHS [0.0]
相互情報(英: Mutual Information、MI)は、2つの確率変数間の依存性に関する情報理論の尺度である。
近年の手法では、未知密度比を近似するニューラルネットワークとしてパラメトリック確率分布や批判が実現されている。
我々は、高分散特性は、批評家の仮説空間の制御不能な複雑さに起因すると論じる。
論文 参考訳(メタデータ) (2020-11-17T14:32:48Z) - Probabilistic 3D surface reconstruction from sparse MRI information [58.14653650521129]
スパース2次元MR画像データとアレータティック不確実性予測から3次元表面再構成を同時に行うための新しい確率論的深層学習手法を提案する。
本手法は,3つの準直交MR画像スライスから,限られたトレーニングセットから大きな表面メッシュを再構成することができる。
論文 参考訳(メタデータ) (2020-10-05T14:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。