論文の概要: Multi-Disciplinary Dataset Discovery from Citation-Verified Literature Contexts
- arxiv url: http://arxiv.org/abs/2601.05099v1
- Date: Thu, 08 Jan 2026 16:46:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.28315
- Title: Multi-Disciplinary Dataset Discovery from Citation-Verified Literature Contexts
- Title(参考訳): Citation-Verified Literature コンテキストによる多分野データセットの探索
- Authors: Zhiyin Tan, Changxu Duan,
- Abstract要約: 本稿では,学術論文の引用文脈からデータセットを抽出する文献駆動フレームワークを提案する。
提案手法は,大規模引用コンテキスト抽出,スキーマ誘導型データセット認識,証明保存エンティティ解決を併用する。
コード、評価データセット、結果はGitHubで公開しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Identifying suitable datasets for a research question remains challenging because existing dataset search engines rely heavily on metadata quality and keyword overlap, which often fail to capture the semantic intent of scientific investigation. We introduce a literature-driven framework that discovers datasets from citation contexts in scientific papers, enabling retrieval grounded in actual research use rather than metadata availability. Our approach combines large-scale citation-context extraction, schema-guided dataset recognition with Large Language Models, and provenance-preserving entity resolution. We evaluate the system on eight survey-derived computer science queries and find that it achieves substantially higher recall than Google Dataset Search and DataCite Commons, with normalized recall ranging from an average of 47.47% to a highest value of 81.82%. Beyond recovering gold-standard datasets, the method also surfaces additional datasets not documented in the surveys. Expert assessments across five top-level Fields of Science indicate that a substantial portion of the additional datasets are considered high utility, and some are regarded as novel for the specific topics chosen by the experts. These findings establish citation-context mining as an effective and generalizable paradigm for dataset discovery, particularly in settings where datasets lack sufficient or reliable metadata. To support reproducibility and future extensions, we release our code, evaluation datasets, and results on GitHub (https://github.com/Fireblossom/citation-context-dataset-discovery).
- Abstract(参考訳): 既存のデータセット検索エンジンはメタデータの品質とキーワードの重複に大きく依存しているため、科学的調査のセマンティックな意図をつかむことができないことが多いため、研究課題に適したデータセットを特定することは依然として困難である。
本稿では,学術論文の引用文脈からデータセットを抽出し,メタデータの可利用性ではなく,実際の研究利用に基づく検索を可能にする文献駆動型フレームワークを提案する。
提案手法は,大規模引用コンテキスト抽出,スキーマ誘導型データセット認識,大規模言語モデル,証明保存エンティティ解決を併用する。
このシステムは,8種類のコンピュータサイエンスクエリで評価した結果,平均47.47%から最高81.82%まで,Google Dataset SearchやDataCite Commonsよりも大幅に高いリコールを実現していることがわかった。
金標準データセットの回復以外にも、調査に記録されていない追加データセットも表示される。
5つのトップレベルの科学分野のエキスパートアセスメントは、追加データセットのかなりの部分が高実用性と見なされ、専門家が選んだ特定のトピックの斬新なものと見なされている。
これらの知見は、特にデータセットに十分なメタデータや信頼できるメタデータが欠如している場合に、引用コンテキストマイニングをデータセット発見の効果的で一般化可能なパラダイムとして確立する。
再現性と将来の拡張をサポートするため、コード、評価データセット、結果をGitHubでリリースしています(https://github.com/Fireblossom/citation-context-dataset-discovery)。
関連論文リスト
- OpenDataArena: A Fair and Open Arena for Benchmarking Post-Training Dataset Value [74.80873109856563]
OpenDataArena(ODA)は、トレーニング後のデータの本質的な価値をベンチマークするために設計された、総合的でオープンなプラットフォームである。
ODAは4つの主要な柱からなる包括的なエコシステムを確立している。 (i) 多様なモデル間で公平でオープンな比較を保証する統一的なトレーニング評価パイプライン、 (ii) 異なる軸数に沿ってデータ品質をプロファイリングする多次元スコアリングフレームワーク、 (iii) データセットの系図を視覚化してコンポーネントソースを識別するインタラクティブなデータ系統探索である。
論文 参考訳(メタデータ) (2025-12-16T03:33:24Z) - DS4RS: Community-Driven and Explainable Dataset Search Engine for Recommender System Research [0.5294604210205507]
本稿では,推薦システム研究に適した,コミュニティ主導で説明可能なデータセット検索エンジンを提案する。
本システムは,データセット名や記述,レコメンデーションドメインなど,複数のデータセット属性のセマンティック検索をサポートする。
このシステムは、ユーザーがパブリックリポジトリで標準化されたデータセットメタデータをコントリビュートできるようにすることで、コミュニティの参加を促進する。
論文 参考訳(メタデータ) (2025-08-13T23:37:55Z) - Making Sense of Data in the Wild: Data Analysis Automation at Scale [0.1747623282473278]
本稿では,インテリジェントエージェントと検索拡張生成を組み合わせることで,データ解析,データセットキュレーション,インデックス作成を大規模に自動化する手法を提案する。
提案手法により,より詳細なデータセット記述,より高いヒット率,データセット検索タスクの多様性が得られた。
論文 参考訳(メタデータ) (2025-01-27T10:04:10Z) - SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents [49.54155332262579]
我々は,科学論文のデータセット,メソッド,タスクに関連するエンティティに対して,新たなエンティティと関係抽出データセットをリリースする。
我々のデータセットには、24k以上のエンティティと12kの関係を持つ106の注釈付きフルテキストの科学出版物が含まれています。
論文 参考訳(メタデータ) (2024-10-28T15:56:49Z) - Metadata-based Data Exploration with Retrieval-Augmented Generation for Large Language Models [3.7685718201378746]
本研究では、メタデータに基づくデータ発見を強化するために、レトリーバル拡張生成(RAG)という形式を用いた新しいデータ探索アーキテクチャを提案する。
提案フレームワークは異種データソース間の意味的類似性を評価するための新しい手法を提供する。
論文 参考訳(メタデータ) (2024-10-05T17:11:37Z) - Introducing a Comprehensive, Continuous, and Collaborative Survey of Intrusion Detection Datasets [2.7082111912355877]
COMIDDSは、侵入検出データセットを前例のないレベルで包括的に調査する試みである。
実際のデータサンプルや関連する出版物へのリンクを含む、各データセットに関する構造化されたクリティカルな情報を提供する。
論文 参考訳(メタデータ) (2024-08-05T14:40:41Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - A Survey on Data Selection for Language Models [148.300726396877]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - Unearthing Large Scale Domain-Specific Knowledge from Public Corpora [103.0865116794534]
データ収集パイプラインに大規模なモデルを導入し、ドメイン固有の情報の生成をガイドします。
このアプローチをRetrieve-from-CCと呼ぶ。
ドメイン固有の知識に関するデータを収集するだけでなく、パブリックコーパスから潜在的推論手順を含むデータをマイニングする。
論文 参考訳(メタデータ) (2024-01-26T03:38:23Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - DataFinder: Scientific Dataset Recommendation from Natural Language
Descriptions [100.52917027038369]
我々は、短い自然言語記述を与えられたデータセットを推奨するタスクを運用する。
この作業を容易にするために、我々は、より大規模な自動構築トレーニングセットと、より少ない専門家によるアノテート評価セットからなるDataFinderデータセットを構築した。
このシステムは、DataFinderデータセットに基づいてトレーニングされ、既存のサードパーティのデータセット検索エンジンよりも関連性の高い検索結果を見つける。
論文 参考訳(メタデータ) (2023-05-26T05:22:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。