論文の概要: Personalization of Dataset Retrieval Results using a Metadata-based Data Valuation Method
- arxiv url: http://arxiv.org/abs/2407.15546v1
- Date: Mon, 22 Jul 2024 11:13:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 19:18:48.611635
- Title: Personalization of Dataset Retrieval Results using a Metadata-based Data Valuation Method
- Title(参考訳): メタデータに基づくデータ評価法によるデータセット検索結果のパーソナライズ
- Authors: Malick Ebiele, Malika Bendechache, Eamonn Clinton, Rob Brennan,
- Abstract要約: アイルランドのナショナル・マッピング・エージェンシーにおいて,データセット検索のための新しいデータ評価手法を提案する。
メタデータとユーザの好みを利用して、各データセットの個人価値を推定する。
データセットの利害関係者のランキングに対して、データバリューベースのランキングを検証しました。
- 参考スコア(独自算出の注目度): 0.5999777817331317
- License:
- Abstract: In this paper, we propose a novel data valuation method for a Dataset Retrieval (DR) use case in Ireland's National mapping agency. To the best of our knowledge, data valuation has not yet been applied to Dataset Retrieval. By leveraging metadata and a user's preferences, we estimate the personal value of each dataset to facilitate dataset retrieval and filtering. We then validated the data value-based ranking against the stakeholders' ranking of the datasets. The proposed data valuation method and use case demonstrated that data valuation is promising for dataset retrieval. For instance, the outperforming dataset retrieval based on our approach obtained 0.8207 in terms of NDCG@5 (the truncated Normalized Discounted Cumulative Gain at 5). This study is unique in its exploration of a data valuation-based approach to dataset retrieval and stands out because, unlike most existing methods, our approach is validated using the stakeholders ranking of the datasets.
- Abstract(参考訳): 本稿では,アイルランドのナショナルマッピング機関において,DR(Dataset Retrieval)ユースケースのための新しいデータ評価手法を提案する。
私たちの知る限りでは、データ評価はまだデータセット検索には適用されていません。
メタデータとユーザの好みを利用して、データセットの個人価値を推定し、データセットの検索とフィルタリングを容易にする。
次に、データセットの利害関係者のランキングに対するデータ価値ベースのランキングを評価しました。
提案したデータアベイラビリティ手法とユースケースは,データセット検索にデータアベイラビリティが有望であることを実証した。
例えば,NDCG@5(Truncated Normalized Discounted Cumulative Gain at 5。
この研究は、データセット検索に対するデータバリュエーションに基づくアプローチの探求に特有であり、既存のほとんどの手法とは異なり、我々のアプローチはデータセットのランキングに基づいて検証されている。
関連論文リスト
- Private, Augmentation-Robust and Task-Agnostic Data Valuation Approach for Data Marketplace [56.78396861508909]
PriArTaは、買い手の既存のデータセットと売り手のデータセットの分布の間の距離を計算するアプローチである。
PriArTaは通信効率が良く、買い手は各売り手からデータセット全体にアクセスすることなくデータセットを評価することができる。
論文 参考訳(メタデータ) (2024-11-01T17:13:14Z) - Data Distribution Valuation [56.71023681599737]
既存のデータバリュエーションメソッドは、離散データセットの値を定義します。
多くのユースケースでは、ユーザはデータセットの値だけでなく、データセットがサンプリングされた分布の値にも興味を持っています。
本稿では,理論的原理と実行可能なポリシを実現するための,MMDに基づく評価手法を提案する。
論文 参考訳(メタデータ) (2024-10-06T07:56:53Z) - Truthful Dataset Valuation by Pointwise Mutual Information [28.63827288801458]
観測データを真に報告することで,データ提供者が常に期待するスコアを最大化することができる新しいデータ評価手法を提案する。
本手法は、適切なスコアリングルールのパラダイムに従って、テストデータセットと評価データセットのポイントワイド相互情報(PMI)を測定する。
論文 参考訳(メタデータ) (2024-05-28T15:04:17Z) - Neural Dynamic Data Valuation [4.286118155737111]
ニューラルダイナミックデータ評価(NDDV)という最適制御の観点から,新しいデータ評価手法を提案する。
本手法は,データ最適制御状態の感度を用いて,データ評価を正確に識別する理論的解釈を持つ。
さらに,データポイントのユニークな特徴を捉え,データポイントと平均場状態の相互作用による公平性を確保するために,データ再重み付け戦略を実装した。
論文 参考訳(メタデータ) (2024-04-30T13:39:26Z) - When is Off-Policy Evaluation (Reward Modeling) Useful in Contextual Bandits? A Data-Centric Perspective [64.73162159837956]
ログ化されたデータセットだけで仮説的ターゲットポリシーの価値を評価することは重要だが、難しい。
データ中心のフレームワークであるDataCOPEを提案する。
医療データセットを用いたログ化された文脈的帯域設定におけるDataCOPEの実証分析により、機械学習と人間の専門家ポリシーの両方を評価する能力が確認された。
論文 参考訳(メタデータ) (2023-11-23T17:13:37Z) - Sample Complexity of Preference-Based Nonparametric Off-Policy
Evaluation with Deep Networks [58.469818546042696]
我々は、OPEのサンプル効率を人間の好みで研究し、その統計的保証を確立する。
ReLUネットワークのサイズを適切に選択することにより、マルコフ決定過程において任意の低次元多様体構造を活用できることが示される。
論文 参考訳(メタデータ) (2023-10-16T16:27:06Z) - OpenDataVal: a Unified Benchmark for Data Valuation [38.15852021170501]
OpenDataValは、データバリュエーションのための、使いやすく、統一されたベンチマークフレームワークです。
OpenDataValは、11種類の最先端データバリュエーションアルゴリズムを含む統合環境を提供する。
我々はOpenDataValを用いてベンチマーク分析を行い、最先端データ評価手法の有効性を定量化し比較する。
論文 参考訳(メタデータ) (2023-06-18T14:38:29Z) - DataFinder: Scientific Dataset Recommendation from Natural Language
Descriptions [100.52917027038369]
我々は、短い自然言語記述を与えられたデータセットを推奨するタスクを運用する。
この作業を容易にするために、我々は、より大規模な自動構築トレーニングセットと、より少ない専門家によるアノテート評価セットからなるDataFinderデータセットを構築した。
このシステムは、DataFinderデータセットに基づいてトレーニングされ、既存のサードパーティのデータセット検索エンジンよりも関連性の高い検索結果を見つける。
論文 参考訳(メタデータ) (2023-05-26T05:22:36Z) - LiDAR dataset distillation within bayesian active learning framework:
Understanding the effect of data augmentation [63.20765930558542]
アクティブラーニング(AL)は、アノテーションコストとデータセットサイズの削減に対処するため、最近再び注目されている。
本稿では,大規模なセマンティックKITTIデータセットの1/4分の1でALベースのデータセット蒸留を原理的に評価する。
我々は、選択したデータセット構成からのサンプルの60%のみを使用して、データ拡張が完全なデータセット精度を達成することを観察した。
論文 参考訳(メタデータ) (2022-02-06T00:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。