論文の概要: Measuring What Matters: Intrinsic Distance Preservation as a Robust Metric for Embedding Quality
- arxiv url: http://arxiv.org/abs/2407.21590v1
- Date: Wed, 31 Jul 2024 13:26:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-01 17:52:02.769914
- Title: Measuring What Matters: Intrinsic Distance Preservation as a Robust Metric for Embedding Quality
- Title(参考訳): 何が重要なのかを測る: 内在的距離保存を組み込むためのロバストな指標として
- Authors: Steven N. Hart, Thomas E. Tavolara,
- Abstract要約: 本稿では,組み込み品質を評価するための固有距離保存評価(IDPE)手法を提案する。
IDPEは、元の空間と埋め込み空間のデータポイント間のマハラノビス距離の保存に基づいている。
以上の結果から,IDPEは様々なシナリオにまたがって,より包括的で信頼性の高い組込み品質評価を提供することが示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Unsupervised embeddings are fundamental to numerous machine learning applications, yet their evaluation remains a challenging task. Traditional assessment methods often rely on extrinsic variables, such as performance in downstream tasks, which can introduce confounding factors and mask the true quality of embeddings. This paper introduces the Intrinsic Distance Preservation Evaluation (IDPE) method, a novel approach for assessing embedding quality based on the preservation of Mahalanobis distances between data points in the original and embedded spaces. We demonstrate the limitations of extrinsic evaluation methods through a simple example, highlighting how they can lead to misleading conclusions about embedding quality. IDPE addresses these issues by providing a task-independent measure of how well embeddings preserve the intrinsic structure of the original data. Our method leverages efficient similarity search techniques to make it applicable to large-scale datasets. We compare IDPE with established intrinsic metrics like trustworthiness and continuity, as well as extrinsic metrics such as Average Rank and Mean Reciprocal Rank. Our results show that IDPE offers a more comprehensive and reliable assessment of embedding quality across various scenarios. We evaluate PCA and t-SNE embeddings using IDPE, revealing insights into their performance that are not captured by traditional metrics. This work contributes to the field by providing a robust, efficient, and interpretable method for embedding evaluation. IDPE's focus on intrinsic properties offers a valuable tool for researchers and practitioners seeking to develop and assess high-quality embeddings for diverse machine learning applications.
- Abstract(参考訳): 教師なしの埋め込みは多くの機械学習アプリケーションに基礎を置いているが、その評価は依然として難しい課題である。
従来のアセスメント手法は、ダウンストリームタスクのパフォーマンスなど、外在変数に依存することが多い。
本稿では,元空間と埋め込み空間におけるデータポイント間のマハラノビス距離の保存に基づく埋め込み品質の評価手法である,固有距離保存評価法を提案する。
簡単な例で外在的評価手法の限界を実証し, 組込み品質に関する誤解を招く要因を明らかにした。
IDPEは、元のデータ固有の構造をいかにうまく埋め込むかというタスク非依存の尺度を提供することで、これらの問題に対処する。
提案手法は,効率的な類似性探索手法を活用し,大規模データセットに適用できるようにする。
我々は、IDPEと、信頼性や継続性といった確立された内在的指標、および平均ランクや平均相互ランクといった外在的指標を比較した。
以上の結果から,IDPEは様々なシナリオにまたがって,より包括的で信頼性の高い組込み品質評価を提供することが示された。
我々はIDPEを用いてPCAとt-SNEの埋め込みを評価し、従来のメトリクスでは捉えられない性能に関する洞察を明らかにした。
この研究は、組込み評価のための堅牢で効率的で解釈可能な方法を提供することによって、この分野に寄与する。
IDPEの本質的な性質へのフォーカスは、さまざまな機械学習アプリケーションのための高品質な埋め込みを開発し評価しようとする研究者や実践者にとって、貴重なツールを提供する。
関連論文リスト
- Margin-bounded Confidence Scores for Out-of-Distribution Detection [2.373572816573706]
本稿では,非自明なOOD検出問題に対処するため,Margin bounded Confidence Scores (MaCS) と呼ばれる新しい手法を提案する。
MaCS は ID と OOD のスコアの差を拡大し、決定境界をよりコンパクトにする。
画像分類タスクのための様々なベンチマークデータセットの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-09-22T05:40:25Z) - Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction [54.23208041792073]
Aspect Sentiment Quad Prediction (ASQP) は、与えられたレビューに対して全てのクワッド(アスペクト項、アスペクトカテゴリー、意見項、感情極性)を予測することを目的としている。
ASQPタスクにおける重要な課題はラベル付きデータの不足であり、既存のメソッドのパフォーマンスを制限している。
そこで我々は,擬似ラベルスコアラーを用いた自己学習フレームワークを提案し,レビューと擬似ラベルの一致をスコアラーが評価する。
論文 参考訳(メタデータ) (2024-06-26T05:30:21Z) - Beyond Accuracy: Measuring Representation Capacity of Embeddings to
Preserve Structural and Contextual Information [1.8130068086063336]
埋め込みのテキスト表現能力を測定する手法を提案する。
この研究の背後にある動機は、埋め込みの強さと限界を理解することの重要性にある。
提案手法は, 埋込評価の分野の進展に寄与するだけでなく, 研究者や実践者に定量的な測定力を与える。
論文 参考訳(メタデータ) (2023-09-20T13:21:12Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - The Meta-Evaluation Problem in Explainable AI: Identifying Reliable
Estimators with MetaQuantus [10.135749005469686]
説明可能なAI(XAI)分野における未解決課題の1つは、説明方法の品質を最も確実に見積もる方法を決定することである。
我々は、XAIの異なる品質推定器のメタ評価を通じてこの問題に対処する。
我々の新しいフレームワークMetaQuantusは、品質推定器の2つの相補的な性能特性を解析する。
論文 参考訳(メタデータ) (2023-02-14T18:59:02Z) - TRUE: Re-evaluating Factual Consistency Evaluation [29.888885917330327]
TRUE: 多様なタスクから既存のテキストの標準化されたコレクション上での、事実整合性メトリクスの総合的な研究である。
我々の標準化により、前述した相関よりも動作可能で解釈可能なサンプルレベルのメタ評価プロトコルが実現される。
さまざまな最先端のメトリクスと11のデータセットから、大規模NLIと質問生成と回答に基づくアプローチが、強力で相補的な結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2022-04-11T10:14:35Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z) - Towards Question-Answering as an Automatic Metric for Evaluating the
Content Quality of a Summary [65.37544133256499]
質問回答(QA)を用いて要約内容の質を評価する指標を提案する。
提案指標であるQAEvalの分析を通じて,QAに基づくメトリクスの実験的メリットを実証する。
論文 参考訳(メタデータ) (2020-10-01T15:33:09Z) - Pitfalls of In-Domain Uncertainty Estimation and Ensembling in Deep
Learning [70.72363097550483]
本研究では,画像分類における領域内不確実性に着目した。
そこで本研究では,ディープアンサンブル等価スコア(DEE)を導入する。
論文 参考訳(メタデータ) (2020-02-15T23:28:19Z) - Interpretable Off-Policy Evaluation in Reinforcement Learning by
Highlighting Influential Transitions [48.91284724066349]
強化学習におけるオフ政治評価は、医療や教育などの領域における将来の成果を改善するために観察データを使用する機会を提供する。
信頼区間のような従来の尺度は、ノイズ、限られたデータ、不確実性のために不十分である可能性がある。
我々は,人間専門家が政策評価評価評価の妥当性を分析できるように,ハイブリッドAIシステムとして機能する手法を開発した。
論文 参考訳(メタデータ) (2020-02-10T00:26:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。