論文の概要: Harvesting Textual and Structured Data from the HAL Publication Repository
- arxiv url: http://arxiv.org/abs/2407.20595v2
- Date: Thu, 27 Feb 2025 19:33:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 16:38:44.924151
- Title: Harvesting Textual and Structured Data from the HAL Publication Repository
- Title(参考訳): HAL出版レポジトリのテキストと構造化データ
- Authors: Francis Kulumba, Wissam Antoun, Guillaume Vimont, Laurent Romary,
- Abstract要約: HAL(textitHyper Articles en Ligne)は、フランスの出版社。
本稿では、引用ネットワークとHAL送信記事の全文とのギャップを埋めるユニークなデータセットであるHALvestを紹介する。
- 参考スコア(独自算出の注目度): 2.2811655242978444
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: HAL (\textit{Hyper Articles en Ligne}) is the French national publication repository, used by most higher education and research organizations for their open science policy. Although it is a rich repository of academic documents, its potential for advanced research has not been fully explored. We present HALvest, a unique dataset that bridges the gap between citation networks and the full text of HAL-submitted articles to help with authorship attribution and verification. This first iteration consists of approximately 700,000 documents, spanning 56 languages across 13 identified domains. We transform articles' metadata into a citation network, producing a heterogeneous graph. This graph includes uniquely identified authors on HAL, as well as all open-access documents and their references. Finally, we mine 14.5 million high-quality sequence pairs from HALvest for contrastive learning purposes. By providing different views of HAL, suited for modern machine learning, we aim to assist practitioners in better analyzing and interpreting research dynamics.
- Abstract(参考訳): HAL (\textit{Hyper Articles en Ligne}) は、ほとんどの高等教育機関や研究機関がオープンサイエンス政策のために使用しているフランスの国立出版物リポジトリである。
学術資料の豊富な蔵書であるが、先進的な研究の可能性については十分には調査されていない。
本稿では、著者帰属と検証を支援するために、引用ネットワークとHAL提出記事の全文とのギャップを埋めるユニークなデータセットであるHALvestを紹介する。
この最初のイテレーションはおよそ70,000のドキュメントで構成され、13の特定ドメインにわたる56の言語にまたがっている。
記事のメタデータを引用ネットワークに変換し、異種グラフを生成する。
このグラフには、HAL上の一意に特定された著者と、すべてのオープンアクセスドキュメントとその参照が含まれている。
最後に,HALvestから1450万の高品質シーケンスペアを,対照的な学習目的で抽出した。
現代の機械学習に適したHALの異なる視点を提供することで、我々は実践者が研究のダイナミクスをよりよく分析し解釈することを支援することを目指している。
関連論文リスト
- SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。
SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z) - DocReLM: Mastering Document Retrieval with Language Model [49.847369507694154]
本研究では,大規模言語モデルを利用することで,文書検索システムが高度な意味理解能力を実現することを実証する。
我々のアプローチは、大規模言語モデルによって生成されたドメイン固有データを用いて、検索者と再ランカを訓練することである。
我々は、量子物理学とコンピュータビジョンの分野の研究者によって注釈付けされたテストセットを使用して、システムの性能を評価する。
論文 参考訳(メタデータ) (2024-05-19T06:30:22Z) - KG-CTG: Citation Generation through Knowledge Graph-guided Large Language Models [35.80247519023821]
Citation Text Generation (CTG) は、自然言語処理(NLP)において、引用された文書を正確に引用または参照することを目的としたタスクである。
本稿では,大規模言語モデル(LLM)を引用生成のタスクに活用するためのフレームワークと比較研究について述べる。
論文 参考訳(メタデータ) (2024-04-15T13:06:32Z) - Query of CC: Unearthing Large Scale Domain-Specific Knowledge from
Public Corpora [104.16648246740543]
大規模言語モデルに基づく効率的なデータ収集手法を提案する。
この方法は、大きな言語モデルを通してシード情報をブートストラップし、公開コーパスから関連データを検索する。
特定のドメインに関する知識関連のデータを収集するだけでなく、潜在的な推論手順でデータを抽出する。
論文 参考訳(メタデータ) (2024-01-26T03:38:23Z) - Large Language Models for Generative Information Extraction: A Survey [89.71273968283616]
大規模言語モデル(LLM)は、テキスト理解と生成において顕著な能力を示した。
各種IEサブタスクと技術の観点から,これらの作品を分類して概観する。
我々は,最も先進的な手法を実証的に分析し,LLMによるIEタスクの出現傾向を明らかにする。
論文 参考訳(メタデータ) (2023-12-29T14:25:22Z) - GAIA Search: Hugging Face and Pyserini Interoperability for NLP Training
Data Exploration [97.68234051078997]
我々はPyseriniを、オープンソースのAIライブラリとアーティファクトのHugging Faceエコシステムに統合する方法について論じる。
Jupyter NotebookベースのウォークスルーがGitHubで公開されている。
GAIA Search - 前述した原則に従って構築された検索エンジンで、人気の高い4つの大規模テキストコレクションへのアクセスを提供する。
論文 参考訳(メタデータ) (2023-06-02T12:09:59Z) - CoCon: A Data Set on Combined Contextualized Research Artifact Use [0.0]
CoConは学術出版物の全文に研究成果物の組み合わせを反映した大規模な学術データセットである。
データセットは35kのアーティファクト(データセット、メソッド、モデル、タスク)と340kのパブリッシュで構成されています。
我々は,「総合研究成果物利用予測」のためのリンク予測タスクを形式化し,データに基づくMLアプリケーションの解析と開発を利用するためのコードを提供する。
論文 参考訳(メタデータ) (2023-03-27T13:29:09Z) - PubGraph: A Large-Scale Scientific Knowledge Graph [11.240833731512609]
PubGraphは、大規模な知識グラフの形式を取り入れた、科学的進歩を研究するための新しいリソースである。
PubGraphはWikidata、OpenAlex、Semantic Scholarなど、さまざまなソースからのデータを包括的に統合している。
知識グラフ補完のコアタスクとしてPubGraphから抽出した大規模ベンチマークを複数作成する。
論文 参考訳(メタデータ) (2023-02-04T20:03:55Z) - The Semantic Scholar Open Data Platform [79.4493235243312]
セマンティック・スカラー(Semantic Scholar、S2)は、学術文献の発見と理解を支援することを目的としたオープンデータプラットフォームおよびウェブサイトである。
我々は、学術的なPDFコンテンツ抽出と知識グラフの自動構築のための最先端技術を用いて、パブリックおよびプロプライエタリなデータソースを組み合わせる。
このグラフには、構造解析されたテキスト、自然言語要約、ベクトル埋め込みなどの高度な意味的特徴が含まれている。
論文 参考訳(メタデータ) (2023-01-24T17:13:08Z) - Taxonomy Enrichment with Text and Graph Vector Representations [61.814256012166794]
我々は,既存の分類学に新たな語を加えることを目的とした分類学の豊かさの問題に対処する。
我々は,この課題に対して,少ない労力で高い結果を得られる新しい手法を提案する。
我々は、異なるデータセットにわたる最先端の結果を達成し、ミスの詳細なエラー分析を提供する。
論文 参考訳(メタデータ) (2022-01-21T09:01:12Z) - Pattern-based Acquisition of Scientific Entities from Scholarly Article
Titles [0.0]
本稿では,学術論文のタイトルから科学的実体を自動的に取得するためのルールベースのアプローチについて述べる。
我々は容易に認識可能なレキシコシンタクティックパターンの集合を同定する。
取得アルゴリズムのサブセットは、計算言語学(CL)学術領域の論文タイトルに対して実装される。
論文 参考訳(メタデータ) (2021-09-01T05:59:06Z) - Enhancing Scientific Papers Summarization with Citation Graph [78.65955304229863]
引用グラフを用いて科学論文の要約作業を再定義します。
我々は,141kの研究論文を異なる領域に格納した,新しい科学論文要約データセットセマンティックスタディネットワーク(ssn)を構築した。
我々のモデルは、事前訓練されたモデルと比較して競争性能を達成することができる。
論文 参考訳(メタデータ) (2021-04-07T11:13:35Z) - A High-Quality Multilingual Dataset for Structured Documentation
Translation [101.41835967142521]
本稿では,文書領域を対象とした高品質な多言語データセットを提案する。
エンタープライズソフトウェアプラットフォームのオンラインドキュメントからXML構造化の並列テキストセグメントを収集します。
論文 参考訳(メタデータ) (2020-06-24T02:08:44Z) - Machine Identification of High Impact Research through Text and Image
Analysis [0.4737991126491218]
本稿では,引用の可能性が低い論文から高い論文を自動的に分離するシステムを提案する。
本システムでは,文書全体の外観を推測する視覚的分類器と,コンテンツインフォームド決定のためのテキスト分類器の両方を用いる。
論文 参考訳(メタデータ) (2020-05-20T19:12:24Z) - Two Huge Title and Keyword Generation Corpora of Research Articles [0.0]
本稿では,テキスト要約(OAGSX)とキーワード生成(OAGKX)の2つの巨大なデータセットを紹介する。
データは、研究プロファイルと出版物のネットワークであるOpen Academic Graphから取得された。
より具体的な分野から研究論文のサブセットを導出するために、この2つの集合にトピックモデリングを適用したい。
論文 参考訳(メタデータ) (2020-02-11T21:17:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。