論文の概要: Beyond Citations: A Cross-Domain Metric for Dataset Impact and Shareability
- arxiv url: http://arxiv.org/abs/2511.12966v1
- Date: Mon, 17 Nov 2025 04:45:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.661255
- Title: Beyond Citations: A Cross-Domain Metric for Dataset Impact and Shareability
- Title(参考訳): Beyond Citations: データセットのインパクトと共有性のためのクロスドメインなメトリクス
- Authors: Smitha Muthya Sudheendra, Zhongxing Zhang, Wenwen Cao, Jisu Huh, Jaideep Srivastava,
- Abstract要約: X-インデックス(X-index)は、2段階のプロセスを通じてデータコントリビューションの価値を定量化する、新しい著者レベルのメトリクスである。
専門家評価に対する我々のアプローチを検証し、強い相関性を達成する。
X-indexは持続可能なデータ共有の実践を奨励し、機関、資金提供者、プラットフォームに、研究データセットの持続的な影響を認識するための具体的な方法を提供する。
- 参考スコア(独自算出の注目度): 2.1689170017681696
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The scientific community increasingly relies on open data sharing, yet existing metrics inadequately capture the true impact of datasets as research outputs. Traditional measures, such as the h-index, focus on publications and citations but fail to account for dataset accessibility, reuse, and cross-disciplinary influence. We propose the X-index, a novel author-level metric that quantifies the value of data contributions through a two-step process: (i) computing a dataset-level value score (V-score) that integrates breadth of reuse, FAIRness, citation impact, and transitive reuse depth, and (ii) aggregating V-scores into an author-level X-index. Using datasets from computational social science, medicine, and crisis communication, we validate our approach against expert ratings, achieving a strong correlation. Our results demonstrate that the X-index provides a transparent, scalable, and low-cost framework for assessing data-sharing practices and incentivizing open science. The X-index encourages sustainable data-sharing practices and gives institutions, funders, and platforms a tangible way to acknowledge the lasting influence of research datasets.
- Abstract(参考訳): 科学コミュニティはオープンなデータ共有にますます依存しているが、既存のメトリクスは研究成果としてのデータセットの真の影響を正しく捉えていない。
h-indexのような伝統的な尺度は出版物や引用に重点を置いているが、データセットのアクセシビリティ、再利用、学際的な影響を考慮できない。
X-indexは2段階のプロセスでデータコントリビューションの価値を定量化する新しい著者レベルの指標である。
一 広範囲の再利用、FAIR性、引用効果、過渡的再利用深度を統合したデータセットレベルの値スコア(Vスコア)の計算
(ii)Vスコアを著者レベルのXインデックスに集約する。
計算社会科学,医学,危機コミュニケーションのデータセットを用いて,専門家評価に対するアプローチを検証する。
我々の結果は、X-indexが、データ共有のプラクティスを評価し、オープンサイエンスにインセンティブを与えるための、透明でスケーラブルで低コストなフレームワークを提供することを示した。
X-indexは持続可能なデータ共有の実践を奨励し、機関、資金提供者、プラットフォームに、研究データセットの持続的な影響を認識するための具体的な方法を提供する。
関連論文リスト
- SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents [49.54155332262579]
我々は,科学論文のデータセット,メソッド,タスクに関連するエンティティに対して,新たなエンティティと関係抽出データセットをリリースする。
我々のデータセットには、24k以上のエンティティと12kの関係を持つ106の注釈付きフルテキストの科学出版物が含まれています。
論文 参考訳(メタデータ) (2024-10-28T15:56:49Z) - Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - All Data on the Table: Novel Dataset and Benchmark for Cross-Modality
Scientific Information Extraction [39.05577374775964]
本稿では,テキスト中のエンティティをアノテートする半教師付きパイプラインと,テーブル内のエンティティとリレーションを反復的に提案する。
我々は,高品質なベンチマーク,大規模コーパス,半教師付きアノテーションパイプラインなど,科学コミュニティのための新たなリソースをリリースする。
論文 参考訳(メタデータ) (2023-11-14T14:22:47Z) - Assessing Scientific Contributions in Data Sharing Spaces [64.16762375635842]
本稿では、研究者の科学的貢献を測定するブロックチェーンベースのメトリクスであるSCIENCE-indexを紹介する。
研究者にデータ共有のインセンティブを与えるため、SCIENCE-indexはデータ共有パラメータを含むように拡張されている。
本モデルは, 地理的に多様な研究者の出力分布とh-indexの分布を比較して評価する。
論文 参考訳(メタデータ) (2023-03-18T19:17:47Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - Utilizing Out-Domain Datasets to Enhance Multi-Task Citation Analysis [4.526582372434088]
引用感情分析は、データセットアノテーションの不足と膨大なコストの両方に悩まされている。
モデルパフォーマンスを向上させるため、トレーニング中のドメイン外データの影響について検討する。
本稿では,感情分析と意図分析を対象とする,エンドツーエンドのトレーニング可能なマルチタスクモデルを提案する。
論文 参考訳(メタデータ) (2022-02-22T13:33:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。