論文の概要: Harvesting Textual and Structured Data from the HAL Publication Repository
- arxiv url: http://arxiv.org/abs/2407.20595v1
- Date: Tue, 30 Jul 2024 07:14:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 18:09:21.277757
- Title: Harvesting Textual and Structured Data from the HAL Publication Repository
- Title(参考訳): HAL出版レポジトリのテキストと構造化データ
- Authors: Francis Kulumba, Wissam Antoun, Guillaume Vimont, Laurent Romary,
- Abstract要約: HALvestは、引用ネットワークとHALに提出された論文の全文とのギャップを埋めるユニークなデータセットである。
我々は、学術出版物のためにHALをフィルタリングしてデータセットを作成し、約70万の文書を作成した。
このグラフには、HAL上の一意に特定された著者と、全ての公開論文とその引用が含まれている。
- 参考スコア(独自算出の注目度): 2.2811655242978444
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: HAL (Hyper Articles en Ligne) is the French national publication repository, used by most higher education and research organizations for their open science policy. As a digital library, it is a rich repository of scholarly documents, but its potential for advanced research has been underutilized. We present HALvest, a unique dataset that bridges the gap between citation networks and the full text of papers submitted on HAL. We craft our dataset by filtering HAL for scholarly publications, resulting in approximately 700,000 documents, spanning 34 languages across 13 identified domains, suitable for language model training, and yielding approximately 16.5 billion tokens (with 8 billion in French and 7 billion in English, the most represented languages). We transform the metadata of each paper into a citation network, producing a directed heterogeneous graph. This graph includes uniquely identified authors on HAL, as well as all open submitted papers, and their citations. We provide a baseline for authorship attribution using the dataset, implement a range of state-of-the-art models in graph representation learning for link prediction, and discuss the usefulness of our generated knowledge graph structure.
- Abstract(参考訳): HAL(Hyper Articles en Ligne)は、ほとんどの高等教育機関や研究機関が公開科学政策のために使用しているフランスの国立出版物リポジトリである。
デジタル図書館として学術資料の豊富な蔵書であるが、先進的な研究の可能性は未利用である。
本稿では、引用ネットワークとHALに提出された論文の全文とのギャップを埋めるユニークなデータセットであるHALvestを紹介する。
私たちは、学術出版物のためにHALをフィルタリングし、約70万のドキュメントを作成し、13の特定ドメインに34の言語をまたがり、言語モデルの訓練に適しており、約1650億のトークン(フランス語で80億、英語で70億、最も代表される言語で70億)を生成する。
我々は各論文のメタデータを引用ネットワークに変換し、有向不均一グラフを生成する。
このグラフには、HAL上の一意に特定された著者と、全ての公開論文とその引用が含まれている。
本稿では,本データセットを用いた著者帰属のためのベースラインを提供し,リンク予測のためのグラフ表現学習における最先端モデルの実装と,生成した知識グラフ構造の有用性について考察する。
関連論文リスト
- DocReLM: Mastering Document Retrieval with Language Model [49.847369507694154]
本研究では,大規模言語モデルを利用することで,文書検索システムが高度な意味理解能力を実現することを実証する。
我々のアプローチは、大規模言語モデルによって生成されたドメイン固有データを用いて、検索者と再ランカを訓練することである。
我々は、量子物理学とコンピュータビジョンの分野の研究者によって注釈付けされたテストセットを使用して、システムの性能を評価する。
論文 参考訳(メタデータ) (2024-05-19T06:30:22Z) - KG-CTG: Citation Generation through Knowledge Graph-guided Large Language Models [35.80247519023821]
Citation Text Generation (CTG) は、自然言語処理(NLP)において、引用された文書を正確に引用または参照することを目的としたタスクである。
本稿では,大規模言語モデル(LLM)を引用生成のタスクに活用するためのフレームワークと比較研究について述べる。
論文 参考訳(メタデータ) (2024-04-15T13:06:32Z) - Query of CC: Unearthing Large Scale Domain-Specific Knowledge from
Public Corpora [104.16648246740543]
大規模言語モデルに基づく効率的なデータ収集手法を提案する。
この方法は、大きな言語モデルを通してシード情報をブートストラップし、公開コーパスから関連データを検索する。
特定のドメインに関する知識関連のデータを収集するだけでなく、潜在的な推論手順でデータを抽出する。
論文 参考訳(メタデータ) (2024-01-26T03:38:23Z) - CoCon: A Data Set on Combined Contextualized Research Artifact Use [0.0]
CoConは学術出版物の全文に研究成果物の組み合わせを反映した大規模な学術データセットである。
データセットは35kのアーティファクト(データセット、メソッド、モデル、タスク)と340kのパブリッシュで構成されています。
我々は,「総合研究成果物利用予測」のためのリンク予測タスクを形式化し,データに基づくMLアプリケーションの解析と開発を利用するためのコードを提供する。
論文 参考訳(メタデータ) (2023-03-27T13:29:09Z) - PubGraph: A Large-Scale Scientific Knowledge Graph [11.240833731512609]
PubGraphは、大規模な知識グラフの形式を取り入れた、科学的進歩を研究するための新しいリソースである。
PubGraphはWikidata、OpenAlex、Semantic Scholarなど、さまざまなソースからのデータを包括的に統合している。
知識グラフ補完のコアタスクとしてPubGraphから抽出した大規模ベンチマークを複数作成する。
論文 参考訳(メタデータ) (2023-02-04T20:03:55Z) - The Semantic Scholar Open Data Platform [79.4493235243312]
セマンティック・スカラー(Semantic Scholar、S2)は、学術文献の発見と理解を支援することを目的としたオープンデータプラットフォームおよびウェブサイトである。
我々は、学術的なPDFコンテンツ抽出と知識グラフの自動構築のための最先端技術を用いて、パブリックおよびプロプライエタリなデータソースを組み合わせる。
このグラフには、構造解析されたテキスト、自然言語要約、ベクトル埋め込みなどの高度な意味的特徴が含まれている。
論文 参考訳(メタデータ) (2023-01-24T17:13:08Z) - Taxonomy Enrichment with Text and Graph Vector Representations [61.814256012166794]
我々は,既存の分類学に新たな語を加えることを目的とした分類学の豊かさの問題に対処する。
我々は,この課題に対して,少ない労力で高い結果を得られる新しい手法を提案する。
我々は、異なるデータセットにわたる最先端の結果を達成し、ミスの詳細なエラー分析を提供する。
論文 参考訳(メタデータ) (2022-01-21T09:01:12Z) - Enhancing Scientific Papers Summarization with Citation Graph [78.65955304229863]
引用グラフを用いて科学論文の要約作業を再定義します。
我々は,141kの研究論文を異なる領域に格納した,新しい科学論文要約データセットセマンティックスタディネットワーク(ssn)を構築した。
我々のモデルは、事前訓練されたモデルと比較して競争性能を達成することができる。
論文 参考訳(メタデータ) (2021-04-07T11:13:35Z) - A High-Quality Multilingual Dataset for Structured Documentation
Translation [101.41835967142521]
本稿では,文書領域を対象とした高品質な多言語データセットを提案する。
エンタープライズソフトウェアプラットフォームのオンラインドキュメントからXML構造化の並列テキストセグメントを収集します。
論文 参考訳(メタデータ) (2020-06-24T02:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。