論文の概要: Metric Design != Metric Behavior: Improving Metric Selection for the Unbiased Evaluation of Dimensionality Reduction
- arxiv url: http://arxiv.org/abs/2507.02225v1
- Date: Thu, 03 Jul 2025 01:07:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:15.467988
- Title: Metric Design != Metric Behavior: Improving Metric Selection for the Unbiased Evaluation of Dimensionality Reduction
- Title(参考訳): Metric Design != Metric Behavior: Improving Metric Selection for the Unbiased Evaluation of dimensionity Reduction
- Authors: Jiyeon Bae, Hyeon Jeon, Jinwook Seo,
- Abstract要約: 次元減少(DR)プロジェクションは、信頼できる視覚分析に不可欠である。
DRプロジェクションは、非常に相関性の高いメトリクス、同様の構造特性を計測した場合、不注意に選択される場合、バイアスとなる可能性がある。
本研究では,評価指標の選択におけるバイアスを,経験的相関に基づくクラスタリングによって低減する新しいワークフローを提案する。
- 参考スコア(独自算出の注目度): 10.099350224451387
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Evaluating the accuracy of dimensionality reduction (DR) projections in preserving the structure of high-dimensional data is crucial for reliable visual analytics. Diverse evaluation metrics targeting different structural characteristics have thus been developed. However, evaluations of DR projections can become biased if highly correlated metrics--those measuring similar structural characteristics--are inadvertently selected, favoring DR techniques that emphasize those characteristics. To address this issue, we propose a novel workflow that reduces bias in the selection of evaluation metrics by clustering metrics based on their empirical correlations rather than on their intended design characteristics alone. Our workflow works by computing metric similarity using pairwise correlations, clustering metrics to minimize overlap, and selecting a representative metric from each cluster. Quantitative experiments demonstrate that our approach improves the stability of DR evaluation, which indicates that our workflow contributes to mitigating evaluation bias.
- Abstract(参考訳): 高次元データの構造保存における次元減少(DR)投影の精度の評価は、信頼性の高い視覚分析に不可欠である。
そこで, 異なる構造特性を対象とする多変量評価指標を開発した。
しかし, DRプロジェクションの評価は, 同様の構造特性を測る指標が不注意に選択され, それらの特徴を強調するDR技術が好まれる場合, 偏りが強くなる可能性がある。
この問題に対処するため,評価指標の選択において,意図した設計特性のみに基づくのではなく,経験的相関に基づくメトリクスをクラスタリングすることでバイアスを低減する新しいワークフローを提案する。
我々のワークフローは、ペアワイズ相関を用いてメトリクスの類似性を計算し、オーバーラップを最小限に抑えるクラスタリングメトリクスを計算し、各クラスタから代表メトリックを選択します。
定量的実験により,DR評価の安定性が向上し,ワークフローが評価バイアスを軽減することが示唆された。
関連論文リスト
- Reranking-based Generation for Unbiased Perspective Summarization [10.71668103641552]
我々は,人間のアノテーションを用いて,計量信頼性をベンチマークするテストセットを開発した。
従来の指標は言語モデルに基づく指標に比べて性能が低いことが示され、強力な評価指標であることが証明された。
本研究の目的は,視点要約手法の信頼性評価と開発に寄与することである。
論文 参考訳(メタデータ) (2025-06-19T00:01:43Z) - A Unifying Information-theoretic Perspective on Evaluating Generative Models [5.524685807042777]
最近のいくつかのアプローチでは、分類領域から借用された「精度」と「リコール」を利用して、出力の忠実度(リアリズム)と出力の多様性(実データ変動の表現)を個別に定量化している。
我々は、kNN密度推定のアプローチを用いて、kth-nearest-neighbors(kNN)ベースのメトリクスのクラスを情報理論レンズの下に統一する。
高精度クロスエントロピー(PCE)、リコールクロスエントロピー(RCE)、リコールエントロピー(RE)からなる3次元計量を提案する。
論文 参考訳(メタデータ) (2024-12-18T21:17:02Z) - What is the Best Automated Metric for Text to Motion Generation? [19.71712698183703]
自然言語の記述から骨格に基づく人間の動きを生成することへの関心が高まっている。
人間の評価は、このタスクの究極の精度測定であり、自動化されたメトリクスは、人間の品質判断とよく相関するべきである。
本稿では,どの指標が人間の評価に最も適しているかを体系的に検討し,さらに適合する新しい指標を提案する。
論文 参考訳(メタデータ) (2023-09-19T01:59:54Z) - Learning Evaluation Models from Large Language Models for Sequence Generation [61.8421748792555]
本稿では,大規模言語モデルを用いた3段階評価モデルトレーニング手法を提案する。
SummEval ベンチマークによる実験結果から,CSEM は人間ラベルデータなしで評価モデルを効果的に訓練できることが示された。
論文 参考訳(メタデータ) (2023-08-08T16:41:16Z) - An evaluation framework for dimensionality reduction through sectional
curvature [59.40521061783166]
本研究は,非教師付き次元減少性能指標を初めて導入することを目的としている。
その実現可能性をテストするために、この測定基準は最もよく使われる次元削減アルゴリズムの性能を評価するために用いられている。
新しいパラメータ化問題インスタンスジェネレータが関数ジェネレータの形式で構築されている。
論文 参考訳(メタデータ) (2023-03-17T11:59:33Z) - Never mind the metrics -- what about the uncertainty? Visualising
confusion matrix metric distributions [6.566615606042994]
本稿では,不確実性の異なるモデル下での分布を明らかにすることにより,分類器の性能指標について,よりバランスのとれた視点を求める。
我々は、このROC空間内の(そしてそれ以上の)パフォーマンスメトリクスの輪郭の方程式、アニメーション、インタラクティブな可視化を開発します。
私たちの期待は、これらの洞察と視覚化によって、パフォーマンス指標の推定における実質的な不確実性に対する認識がより高くなることです。
論文 参考訳(メタデータ) (2022-06-05T11:54:59Z) - REAM$\sharp$: An Enhancement Approach to Reference-based Evaluation
Metrics for Open-domain Dialog Generation [63.46331073232526]
オープンドメイン対話システムにおける参照ベースのEvAluation Metricsの拡張手法を提案する。
予測モデルは、与えられた基準セットの信頼性を推定するように設計されている。
本稿では,その予測結果が参照集合の増大にどのように役立つかを示し,測定値の信頼性を向上させる。
論文 参考訳(メタデータ) (2021-05-30T10:04:13Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z) - AttriMeter: An Attribute-guided Metric Interpreter for Person
Re-Identification [100.3112429685558]
Person ReIDシステムは、2人とのマッチング時にのみ距離や類似性を提供します。
CNN ベースの ReID モデルの結果を意味的に,定量的に説明する Attribute-Guided Metric Interpreter を提案する。
論文 参考訳(メタデータ) (2021-03-02T03:37:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。