論文の概要: Metrics for Inter-Dataset Similarity with Example Applications in Synthetic Data and Feature Selection Evaluation -- Extended Version
- arxiv url: http://arxiv.org/abs/2501.09591v1
- Date: Thu, 16 Jan 2025 15:17:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 15:09:42.748177
- Title: Metrics for Inter-Dataset Similarity with Example Applications in Synthetic Data and Feature Selection Evaluation -- Extended Version
- Title(参考訳): 合成データと特徴選択評価における例によるデータセット間類似度の測定-拡張バージョン
- Authors: Muhammad Rajabinasab, Anton D. Lautrup, Arthur Zimek,
- Abstract要約: 既存のデータセット間の類似度を測定する方法は計算コストが高く、制限され、異なるエンティティに敏感である。
データセット間の類似度を測定するための2つの新しい指標を提案する。
- 参考スコア(独自算出の注目度): 1.6863735232819916
- License:
- Abstract: Measuring inter-dataset similarity is an important task in machine learning and data mining with various use cases and applications. Existing methods for measuring inter-dataset similarity are computationally expensive, limited, or sensitive to different entities and non-trivial choices for parameters. They also lack a holistic perspective on the entire dataset. In this paper, we propose two novel metrics for measuring inter-dataset similarity. We discuss the mathematical foundation and the theoretical basis of our proposed metrics. We demonstrate the effectiveness of the proposed metrics by investigating two applications in the evaluation of synthetic data and in the evaluation of feature selection methods. The theoretical and empirical studies conducted in this paper illustrate the effectiveness of the proposed metrics.
- Abstract(参考訳): データセット間の類似度を測定することは、さまざまなユースケースやアプリケーションを用いて機械学習とデータマイニングを行う上で重要なタスクである。
既存のデータセット間の類似度を測定する方法は、計算コストが高く、制限され、異なるエンティティやパラメータの非自明な選択に敏感である。
また、データセット全体の全体像も欠落している。
本稿では,データセット間の類似度を測定するための2つの新しい指標を提案する。
提案手法の数学的基礎と理論的基礎について論じる。
提案手法の有効性を,合成データの評価と特徴選択法の評価に2つの応用を応用して検証した。
本稿では,提案手法の有効性について理論的および実証的研究を行った。
関連論文リスト
- Metrics Revolutions: Groundbreaking Insights into the Implementation of Metrics for Biomedical Image Segmentation [0.0]
距離ベースのメトリクスのための11のオープンソースツールと、高精度なメッシュベースのリファレンス実装を比較します。
その結果、すべてのオープンソースツールで統計的に有意な違いがあることが判明した。
論文 参考訳(メタデータ) (2024-10-03T16:14:22Z) - Measuring Data [79.89948814583805]
我々は、機械学習データとデータセットの構成を定量的に特徴付けるために、データを測定するタスクを特定する。
データ測定は、比較をサポートする共通の次元に沿って、データの異なる属性を定量化する。
我々は、今後の研究の多くの方法、データ測定の限界、そしてこれらの測定手法を研究・実践に活用する方法について議論した。
論文 参考訳(メタデータ) (2022-12-09T22:10:46Z) - On the role of benchmarking data sets and simulations in method
comparison studies [0.0]
本稿では,シミュレーション研究とベンチマーク研究の相違点と類似点について検討する。
混合手法研究や臨床シナリオ評価など,さまざまな文脈からアイデアを借りる。
論文 参考訳(メタデータ) (2022-08-02T13:47:53Z) - Investigating Data Variance in Evaluations of Automatic Machine
Translation Metrics [58.50754318846996]
本稿では,メトリクスのパフォーマンスがデータに敏感であることを示す。
メトリクスのランキングは、異なるデータセットで評価が行われると異なる。
論文 参考訳(メタデータ) (2022-03-29T18:58:28Z) - Learning Personalized Item-to-Item Recommendation Metric via Implicit
Feedback [24.37151414523712]
本稿では,暗黙のフィードバックによるメトリクス学習の新しい視点から,レコメンデーションシステムにおける項目間推薦問題について検討する。
本研究では,アイテムの内部コンテンツとユーザによるインタラクションの両方をキャプチャする,パーソナライズ可能なディープメトリックモデルを開発し,検討する。
論文 参考訳(メタデータ) (2022-03-18T18:08:57Z) - Synthetic Benchmarks for Scientific Research in Explainable Machine
Learning [14.172740234933215]
我々はXAI-Benchをリリースした。XAI-Benchは、合成データセットと、特徴属性アルゴリズムをベンチマークするためのライブラリである。
実世界のデータセットとは異なり、合成データセットは条件付き期待値の効率的な計算を可能にする。
いくつかの評価指標にまたがって一般的な説明可能性手法をベンチマークし、一般的な説明者にとっての障害モードを特定することで、ライブラリのパワーを実証する。
論文 参考訳(メタデータ) (2021-06-23T17:10:21Z) - MINIMALIST: Mutual INformatIon Maximization for Amortized Likelihood
Inference from Sampled Trajectories [61.3299263929289]
シミュレーションベースの推論は、その可能性が実際に計算できない場合でもモデルのパラメータを学習することができる。
あるクラスのメソッドは、異なるパラメータでシミュレートされたデータを使用して、確率とエビデンス比の償却推定器を推定する。
モデルパラメータとシミュレーションデータ間の相互情報の観点から,本手法が定式化可能であることを示す。
論文 参考訳(メタデータ) (2021-06-03T12:59:16Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z) - Estimating informativeness of samples with Smooth Unique Information [108.25192785062367]
サンプルが最終的な重みを知らせる量と、重みによって計算される関数を知らせる量を測定します。
線形化ネットワークを用いてこれらの量の効率的な近似を行う。
本稿では,データセットの要約など,いくつかの問題に適用する。
論文 参考訳(メタデータ) (2021-01-17T10:29:29Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z) - Learning Similarity Metrics for Numerical Simulations [29.39625644221578]
本稿では,様々な数値シミュレーションソースから得られるデータを比較するため,安定かつ一般化された指標(LSiM)をニューラルネットワークで計算する手法を提案する。
提案手法は,計量の数学的性質を動機としたシームズネットワークアーキテクチャを用いている。
論文 参考訳(メタデータ) (2020-02-18T20:11:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。