論文の概要: ChatPD: An LLM-driven Paper-Dataset Networking System
- arxiv url: http://arxiv.org/abs/2505.22349v1
- Date: Wed, 28 May 2025 13:31:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.628821
- Title: ChatPD: An LLM-driven Paper-Dataset Networking System
- Title(参考訳): ChatPD: LLM駆動型紙データセットネットワークシステム
- Authors: Anjie Xu, Ruiqing Ding, Leye Wang,
- Abstract要約: ChatPDは学術論文からデータセット情報を抽出するシステムである。
我々のシステムは3つの重要なモジュールで構成されている:textitpaper Collection, textitdataset Information extract, textitdataset entity resolution。
- 参考スコア(独自算出の注目度): 10.047333473328388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scientific research heavily depends on suitable datasets for method validation, but existing academic platforms with dataset management like PapersWithCode suffer from inefficiencies in their manual workflow. To overcome this bottleneck, we present a system, called ChatPD, that utilizes Large Language Models (LLMs) to automate dataset information extraction from academic papers and construct a structured paper-dataset network. Our system consists of three key modules: \textit{paper collection}, \textit{dataset information extraction}, and \textit{dataset entity resolution} to construct paper-dataset networks. Specifically, we propose a \textit{Graph Completion and Inference} strategy to map dataset descriptions to their corresponding entities. Through extensive experiments, we demonstrate that ChatPD not only outperforms the existing platform PapersWithCode in dataset usage extraction but also achieves about 90\% precision and recall in entity resolution tasks. Moreover, we have deployed ChatPD to continuously extract which datasets are used in papers, and provide a dataset discovery service, such as task-specific dataset queries and similar dataset recommendations. We open source ChatPD and the current paper-dataset network on this [GitHub repository]{https://github.com/ChatPD-web/ChatPD}.
- Abstract(参考訳): 科学的研究は、メソッド検証に適したデータセットに大きく依存するが、PapersWithCodeのようなデータセット管理を持つ既存の学術プラットフォームは、手動のワークフローで非効率に悩まされている。
このボトルネックを克服するために,大規模言語モデル(LLM)を用いて学術論文からデータセット情報を抽出し,構造化紙・データセットネットワークを構築するシステムChatPDを提案する。
本システムは3つの主要なモジュールから構成される: \textit{paper collection}, \textit{dataset information extract}, \textit{dataset entity resolution}。
具体的には、データセット記述を対応するエンティティにマッピングするための、 \textit{Graph Completion and Inference} 戦略を提案する。
大規模な実験を通じて、ChatPDが既存のプラットフォームであるPapersWithCodeをデータセット使用率の抽出で上回るだけでなく、エンティティ解決タスクで約90%の精度とリコールを実現していることを示す。
さらに,論文で使用するデータセットを継続的に抽出するためにChatPDをデプロイし,タスク固有のデータセットクエリや類似のデータセットレコメンデーションなどのデータセット発見サービスを提供しています。
この[GitHubリポジトリ]{https://github.com/ChatPD-web/ChatPD}。
関連論文リスト
- MOLE: Metadata Extraction and Validation in Scientific Papers Using LLMs [54.5729817345543]
MOLEは、アラビア語以外の言語のデータセットをカバーする科学論文からメタデータ属性を自動的に抽出するフレームワークである。
本手法では,複数の入力形式にまたがって文書全体を処理し,一貫した出力に対する堅牢な検証機構を組み込む。
論文 参考訳(メタデータ) (2025-05-26T10:31:26Z) - Better Synthetic Data by Retrieving and Transforming Existing Datasets [63.875064274379824]
我々は、データセットの自動生成を改善するために、公開データセットをよりよく利用する方法であるDataTuneを紹介した。
多様な言語ベースのタスクセットでは、DataTuneによる微調整言語モデルが改善され、ベースラインが49%向上する。
データセット変換は、多くのタスクにおいて生成されたデータの多様性と難易度を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-22T17:15:32Z) - [Citation needed] Data usage and citation practices in medical imaging conferences [1.9702506447163306]
データセットの使用状況の検出を支援するオープンソースツールを2つ提示する。
本研究は,MICCAIおよびMIDLの論文における20の公開医療データセットの使用状況について検討した。
以上の結果から,限られたデータセット群の使用率の上昇が示唆された。
論文 参考訳(メタデータ) (2024-02-05T13:41:22Z) - CTE: A Dataset for Contextualized Table Extraction [1.1859913430860336]
データセットは、35k以上のテーブルを含む、75kの完全な注釈付き科学論文で構成されている。
PubMed Centralから収集されたデータは、PubTables-1MとPubLayNetデータセットのアノテーションによって提供される情報をマージする。
生成されたアノテーションは、ドキュメントレイアウト分析、テーブル検出、構造認識、機能解析など、さまざまなタスクのためのエンドツーエンドパイプラインの開発に使用することができる。
論文 参考訳(メタデータ) (2023-02-02T22:38:23Z) - HowSumm: A Multi-Document Summarization Dataset Derived from WikiHow
Articles [8.53502615629675]
クエリ中心のマルチドキュメント要約(qMDS)タスクのための,新たな大規模データセットであるHowSummを提案する。
このユースケースは、既存のマルチドキュメント要約(MDS)データセットでカバーされているユースケースと異なり、教育や産業のシナリオに適用できる。
データセットの作成について述べ、他の要約コーパスと区別するユニークな特徴について論じる。
論文 参考訳(メタデータ) (2021-10-07T04:44:32Z) - Data Augmentation for Abstractive Query-Focused Multi-Document
Summarization [129.96147867496205]
2つのQMDSトレーニングデータセットを提示し,2つのデータ拡張手法を用いて構築する。
これらの2つのデータセットは相補的な性質を持ち、すなわちQMDSCNNは実際のサマリを持つが、クエリはシミュレートされる。
組み合わせたデータセット上にエンドツーエンドのニューラルネットワークモデルを構築し、DUCデータセットに最新の転送結果をもたらします。
論文 参考訳(メタデータ) (2021-03-02T16:57:01Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。