論文の概要: Metrics for Inter-Dataset Similarity with Example Applications in Synthetic Data and Feature Selection Evaluation -- Extended Version
- arxiv url: http://arxiv.org/abs/2501.09591v1
- Date: Thu, 16 Jan 2025 15:17:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 16:36:32.494825
- Title: Metrics for Inter-Dataset Similarity with Example Applications in Synthetic Data and Feature Selection Evaluation -- Extended Version
- Title(参考訳): 合成データと特徴選択評価における例によるデータセット間類似度の測定-拡張バージョン
- Authors: Muhammad Rajabinasab, Anton D. Lautrup, Arthur Zimek,
- Abstract要約: 既存のデータセット間の類似度を測定する方法は計算コストが高く、制限され、異なるエンティティに敏感である。
データセット間の類似度を測定するための2つの新しい指標を提案する。
- 参考スコア(独自算出の注目度): 1.6863735232819916
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Measuring inter-dataset similarity is an important task in machine learning and data mining with various use cases and applications. Existing methods for measuring inter-dataset similarity are computationally expensive, limited, or sensitive to different entities and non-trivial choices for parameters. They also lack a holistic perspective on the entire dataset. In this paper, we propose two novel metrics for measuring inter-dataset similarity. We discuss the mathematical foundation and the theoretical basis of our proposed metrics. We demonstrate the effectiveness of the proposed metrics by investigating two applications in the evaluation of synthetic data and in the evaluation of feature selection methods. The theoretical and empirical studies conducted in this paper illustrate the effectiveness of the proposed metrics.
- Abstract(参考訳): データセット間の類似度を測定することは、さまざまなユースケースやアプリケーションを用いて機械学習とデータマイニングを行う上で重要なタスクである。
既存のデータセット間の類似度を測定する方法は、計算コストが高く、制限され、異なるエンティティやパラメータの非自明な選択に敏感である。
また、データセット全体の全体像も欠落している。
本稿では,データセット間の類似度を測定するための2つの新しい指標を提案する。
提案手法の数学的基礎と理論的基礎について論じる。
提案手法の有効性を,合成データの評価と特徴選択法の評価に2つの応用を応用して検証した。
本稿では,提案手法の有効性について理論的および実証的研究を行った。
関連論文リスト
- Benchmarking Synthetic Tabular Data: A Multi-Dimensional Evaluation Framework [0.4874819476581695]
合成データの品質を評価することは、データ駆動リサーチにおけるプライバシとユーティリティを確保する上で、依然として重要な課題である。
本稿では,プライバシを確保しつつ,合成データが元の分布特性をいかにうまく再現するかを定量化するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-02T17:10:30Z) - Measuring Data Diversity for Instruction Tuning: A Systematic Analysis and A Reliable Metric [48.81957145701228]
サンプルレベルの「ノーベルティ」に基づく新しい多様性指標を提案する。
我々は,NovellSumが精度よく多様性の変動を捉え,命令調整モデルの性能と0.97の相関性が得られることを示す。
論文 参考訳(メタデータ) (2025-02-24T14:20:22Z) - Metrics Revolutions: Groundbreaking Insights into the Implementation of Metrics for Biomedical Image Segmentation [0.0]
距離ベースのメトリクスのための11のオープンソースツールと、高精度なメッシュベースのリファレンス実装を比較します。
その結果、すべてのオープンソースツールで統計的に有意な違いがあることが判明した。
論文 参考訳(メタデータ) (2024-10-03T16:14:22Z) - Enriching Disentanglement: From Logical Definitions to Quantitative Metrics [59.12308034729482]
複雑なデータにおける説明的要素を遠ざけることは、データ効率の表現学習にとって有望なアプローチである。
論理的定義と量的指標の関連性を確立し, 理論的に根ざした絡み合いの指標を導出する。
本研究では,非交叉表現の異なる側面を分離することにより,提案手法の有効性を実証的に実証する。
論文 参考訳(メタデータ) (2023-05-19T08:22:23Z) - Variable Importance Matching for Causal Inference [73.25504313552516]
これらの目標を達成するためのModel-to-Matchと呼ばれる一般的なフレームワークについて説明する。
Model-to-Matchは、距離メートル法を構築するために変数重要度測定を使用する。
LASSO を用いて Model-to-Match フレームワークを運用する。
論文 参考訳(メタデータ) (2023-02-23T00:43:03Z) - Measuring Data [79.89948814583805]
我々は、機械学習データとデータセットの構成を定量的に特徴付けるために、データを測定するタスクを特定する。
データ測定は、比較をサポートする共通の次元に沿って、データの異なる属性を定量化する。
我々は、今後の研究の多くの方法、データ測定の限界、そしてこれらの測定手法を研究・実践に活用する方法について議論した。
論文 参考訳(メタデータ) (2022-12-09T22:10:46Z) - On the role of benchmarking data sets and simulations in method
comparison studies [0.0]
本稿では,シミュレーション研究とベンチマーク研究の相違点と類似点について検討する。
混合手法研究や臨床シナリオ評価など,さまざまな文脈からアイデアを借りる。
論文 参考訳(メタデータ) (2022-08-02T13:47:53Z) - Investigating Data Variance in Evaluations of Automatic Machine
Translation Metrics [58.50754318846996]
本稿では,メトリクスのパフォーマンスがデータに敏感であることを示す。
メトリクスのランキングは、異なるデータセットで評価が行われると異なる。
論文 参考訳(メタデータ) (2022-03-29T18:58:28Z) - Learning Personalized Item-to-Item Recommendation Metric via Implicit
Feedback [24.37151414523712]
本稿では,暗黙のフィードバックによるメトリクス学習の新しい視点から,レコメンデーションシステムにおける項目間推薦問題について検討する。
本研究では,アイテムの内部コンテンツとユーザによるインタラクションの両方をキャプチャする,パーソナライズ可能なディープメトリックモデルを開発し,検討する。
論文 参考訳(メタデータ) (2022-03-18T18:08:57Z) - MINIMALIST: Mutual INformatIon Maximization for Amortized Likelihood
Inference from Sampled Trajectories [61.3299263929289]
シミュレーションベースの推論は、その可能性が実際に計算できない場合でもモデルのパラメータを学習することができる。
あるクラスのメソッドは、異なるパラメータでシミュレートされたデータを使用して、確率とエビデンス比の償却推定器を推定する。
モデルパラメータとシミュレーションデータ間の相互情報の観点から,本手法が定式化可能であることを示す。
論文 参考訳(メタデータ) (2021-06-03T12:59:16Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z) - Learning Similarity Metrics for Numerical Simulations [29.39625644221578]
本稿では,様々な数値シミュレーションソースから得られるデータを比較するため,安定かつ一般化された指標(LSiM)をニューラルネットワークで計算する手法を提案する。
提案手法は,計量の数学的性質を動機としたシームズネットワークアーキテクチャを用いている。
論文 参考訳(メタデータ) (2020-02-18T20:11:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。