論文の概要: Beyond Surrogates: A Quantitative Analysis for Inter-Metric Relationships
- arxiv url: http://arxiv.org/abs/2603.07671v1
- Date: Sun, 08 Mar 2026 15:08:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.015453
- Title: Beyond Surrogates: A Quantitative Analysis for Inter-Metric Relationships
- Title(参考訳): Beyond Surrogates: メトリック間関係の定量的分析
- Authors: Yuanhao Pu, Defu Lian, Enhong Chen,
- Abstract要約: 本稿では,メトリクス間の関係を定量化する統合理論フレームワークを提案する。
我々はメトリクスを異なるクラスに分類し、異なる数学的形態の比較分析を容易にする。
我々は,オンラインの目的とオフラインの改善を理論的に一致させることが保証される評価システムの設計を可能にするため,後悔の伝達における構造的非対称性の同定に関する新たな視点を提供する。
- 参考スコア(独自算出の注目度): 91.61796429377041
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Consistency property between surrogate losses and evaluation metrics has been extensively studied to ensure that minimizing a loss leads to metric optimality. However, the direct relationship between different evaluation metrics remains significantly underexplored. This theoretical gap results in the "Metric Mismatch" frequently observed in industrial applications, where gains in offline validation metrics fail to translate into online performance. To bridge this disconnection, this paper proposes a unified theoretical framework designed to quantify the relationships between metrics. We categorize metrics into different classes to facilitate a comparative analysis across different mathematical forms and interrogates these relationships through Bayes-Optimal Set and Regret Transfer. Through this framework, we provide a new perspective on identifying the structural asymmetry in regret transfer, enabling the design of evaluation systems that are theoretically guaranteed to align offline improvements with online objectives.
- Abstract(参考訳): 代理損失と評価指標の間の一貫性特性は、損失の最小化がメートル法的最適性をもたらすことを保証するために広く研究されている。
しかし、異なる評価指標間の直接的な関係は、いまだに明らかに過小評価されている。
この理論的なギャップは、産業アプリケーションで頻繁に見られる"Metric Mismatch"をもたらす。
この切断を埋めるために,メトリクス間の関係を定量化する統一理論フレームワークを提案する。
メトリクスを異なるクラスに分類し、異なる数学的形式を比較分析し、ベイズ・最適集合とレグレト・トランスファーを通してこれらの関係を問う。
この枠組みを通じて、後悔の伝達における構造的非対称性の同定に関する新たな視点を提供し、理論上はオフライン改善とオンライン目標との整合性を保証する評価システムの設計を可能にする。
関連論文リスト
- No-rank Tensor Decomposition Using Metric Learning [0.0]
本稿では,計量学習に基づく非ランクテンソル分解フレームワークを提案する。
フレームワークの収束に関する理論的保証を提供し、その計量特性の有界性を確立する。
提案手法は, トランスフォーマーに基づく手法と比較して, より少ないトレーニングデータセットで優れた性能を実現する。
論文 参考訳(メタデータ) (2025-11-03T18:21:53Z) - Scalable Offline Metrics for Autonomous Driving [12.613436727986652]
オフラインモデルのパフォーマンスからオンライン設定への外挿は依然として課題だ。
これらの設定では、一見小さなエラーが複雑になり、テスト時間違反や衝突を引き起こします。
シミュレーションで分析したところ、オフラインとオンラインのセッティングの相関は以前の研究よりさらに悪化していた。
論文 参考訳(メタデータ) (2025-10-09T17:59:57Z) - Metric Design != Metric Behavior: Improving Metric Selection for the Unbiased Evaluation of Dimensionality Reduction [10.099350224451387]
次元減少(DR)プロジェクションは、信頼できる視覚分析に不可欠である。
DRプロジェクションは、非常に相関性の高いメトリクス、同様の構造特性を計測した場合、不注意に選択される場合、バイアスとなる可能性がある。
本研究では,評価指標の選択におけるバイアスを,経験的相関に基づくクラスタリングによって低減する新しいワークフローを提案する。
論文 参考訳(メタデータ) (2025-07-03T01:07:02Z) - Towards an Improved Metric for Evaluating Disentangled Representations [0.6946415403594184]
切り離された表現学習は、表現を制御可能、解釈可能、転送可能にする上で重要な役割を果たす。
領域におけるその重要性にもかかわらず、信頼性と一貫した量的絡み合い計量の探求は依然として大きな課題である。
そこで本稿では, 直感的概念の強調と係数-符号関係の改善を生かしたemphEDIという測度を導入することにより, 絡み合いの定量化のための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2024-10-04T00:32:59Z) - Top-K Pairwise Ranking: Bridging the Gap Among Ranking-Based Measures for Multi-Label Classification [120.37051160567277]
本稿では,Top-K Pairwise Ranking(TKPR)という新しい尺度を提案する。
一連の分析により、TKPRは既存のランキングベースの尺度と互換性があることが示されている。
一方,データ依存縮約法という新しい手法に基づいて,提案手法の急激な一般化を確立する。
論文 参考訳(メタデータ) (2024-07-09T09:36:37Z) - BLEURT Has Universal Translations: An Analysis of Automatic Metrics by
Minimum Risk Training [64.37683359609308]
本研究では,機械翻訳システムの学習指導の観点から,各種の主流および最先端の自動測定値について分析する。
BLEURT や BARTScore における普遍的逆変換の存在など,ある種の指標は堅牢性欠陥を示す。
詳細な分析では、これらのロバスト性障害の主な原因は、トレーニングデータセットにおける分布バイアスと、メートル法パラダイムの傾向である。
論文 参考訳(メタデータ) (2023-07-06T16:59:30Z) - A comprehensive theoretical framework for the optimization of neural
networks classification performance with respect to weighted metrics [1.0499611180329804]
多くの文脈において、ニューラルネットワークによって実行される予測の良さを評価するために、カスタマイズされた分類スコアと重み付けされた分類スコアが設計されている。
我々は、重み付けされた分類指標を形式化し、モデルにこれらの関心を最適化させる損失の構築を可能にする完全な設定を提供する。
論文 参考訳(メタデータ) (2023-05-22T20:33:29Z) - REAM$\sharp$: An Enhancement Approach to Reference-based Evaluation
Metrics for Open-domain Dialog Generation [63.46331073232526]
オープンドメイン対話システムにおける参照ベースのEvAluation Metricsの拡張手法を提案する。
予測モデルは、与えられた基準セットの信頼性を推定するように設計されている。
本稿では,その予測結果が参照集合の増大にどのように役立つかを示し,測定値の信頼性を向上させる。
論文 参考訳(メタデータ) (2021-05-30T10:04:13Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。