論文の概要: A Multi-lingual Dataset of Classified Paragraphs from Open Access Scientific Publications
- arxiv url: http://arxiv.org/abs/2510.21762v1
- Date: Mon, 13 Oct 2025 13:10:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 05:35:45.954402
- Title: A Multi-lingual Dataset of Classified Paragraphs from Open Access Scientific Publications
- Title(参考訳): オープンアクセス科学出版物から分類されたパラグラフの多言語データセット
- Authors: Eric Jeangirard,
- Abstract要約: CC-BYライセンスの学術出版物から抽出した833k節のデータセットを提示する。
パラグラフは主に英語とフランス語で書かれており、さらにヨーロッパの言語が表現されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a dataset of 833k paragraphs extracted from CC-BY licensed scientific publications, classified into four categories: acknowledgments, data mentions, software/code mentions, and clinical trial mentions. The paragraphs are primarily in English and French, with additional European languages represented. Each paragraph is annotated with language identification (using fastText) and scientific domain (from OpenAlex). This dataset, derived from the French Open Science Monitor corpus and processed using GROBID, enables training of text classification models and development of named entity recognition systems for scientific literature mining. The dataset is publicly available on HuggingFace https://doi.org/10.57967/hf/6679 under a CC-BY license.
- Abstract(参考訳): 我々は,CC-BYライセンスの学術出版物から抽出された833k節のデータセットを,認定,データ参照,ソフトウェア/コード参照,臨床試験参照の4つのカテゴリに分類した。
パラグラフは主に英語とフランス語で書かれており、さらにヨーロッパの言語が表現されている。
各段落には言語識別(fastTextを使った)と科学ドメイン(OpenAlexによる)が注釈付けされている。
このデータセットは、フランスのオープンサイエンスモニターコーパスから派生し、GROBIDを用いて処理され、テキスト分類モデルのトレーニングと、学術文献マイニングのための名前付きエンティティ認識システムの開発を可能にする。
このデータセットは、CC-BYライセンスの下でHuggingFace https://doi.org/10.57967/hf/6679で公開されている。
関連論文リスト
- Low-resource Information Extraction with the European Clinical Case Corpus [4.747950273856823]
医療領域における多言語データセットであるE3C-3.0を提案する。
このデータセットには、5つの言語のネイティブテキストと、英語ソースから5つのターゲット言語に翻訳され投影されたテキストの両方が含まれている。
自動アノテーション投影を含む半自動的な手法が実装されている。
論文 参考訳(メタデータ) (2025-03-26T14:07:40Z) - Harvesting Textual and Structured Data from the HAL Publication Repository [2.2811655242978444]
HAL(textitHyper Articles en Ligne)は、フランスの出版社。
本稿では、引用ネットワークとHAL送信記事の全文とのギャップを埋めるユニークなデータセットであるHALvestを紹介する。
論文 参考訳(メタデータ) (2024-07-30T07:14:04Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - ACL-Fig: A Dataset for Scientific Figure Classification [15.241086410108512]
科学文献から図形と表を抽出するパイプラインと、視覚的特徴を用いて科学的図形を分類するディープラーニングベースのフレームワークを開発する。
ACLアンソロジーにおける56K研究論文から抽出された112,052の科学的資料からなる,最初の大規模自動注釈コーパスであるACL-Figを構築した。
ACL-Fig-Pilotデータセットには、19のカテゴリに属する1,671の科学的数字が含まれている。
論文 参考訳(メタデータ) (2023-01-28T20:27:35Z) - The Semantic Scholar Open Data Platform [92.2948743167744]
セマンティック・スカラー(Semantic Scholar、S2)は、学術文献の発見と理解を支援することを目的としたオープンデータプラットフォームおよびウェブサイトである。
我々は、学術的なPDFコンテンツ抽出と知識グラフの自動構築のための最先端技術を用いて、パブリックおよびプロプライエタリなデータソースを組み合わせる。
このグラフには、構造解析されたテキスト、自然言語要約、ベクトル埋め込みなどの高度な意味的特徴が含まれている。
論文 参考訳(メタデータ) (2023-01-24T17:13:08Z) - BBC-Oxford British Sign Language Dataset [64.32108826673183]
我々は,British Sign Language (BSL) の大規模ビデオコレクションである BBC-Oxford British Sign Language (BOBSL) データセットを紹介する。
データセットのモチベーションと統計、利用可能なアノテーションについて説明する。
我々は、手話認識、手話アライメント、手話翻訳のタスクのベースラインを提供する実験を行う。
論文 参考訳(メタデータ) (2021-11-05T17:35:58Z) - Documenting the English Colossal Clean Crawled Corpus [28.008953329187648]
この作業は、Common Crawlの単一のスナップショットにフィルターのセットを適用することによって作成されたデータセットであるColossal Clean Crawled Corpus(C4; Raffel et al., 2020)の最初のドキュメントを提供します。
まず、テキストがどこから来ていつ書き込まれたかの分布を含む、データのハイレベルな要約から始めます。
次に、最も頻繁なテキストソースを含む、このデータの突出した部分に関するより詳細な分析を行う。
論文 参考訳(メタデータ) (2021-04-18T07:42:52Z) - Entity Recognition and Relation Extraction from Scientific and Technical
Texts in Russian [0.0]
本論文は,情報技術に関する学術文献から情報抽出方法の研究に係わるものである。
ロシア語の方法のいくつかの修正が提案されている。
また、キーワード抽出法、語彙法、ニューラルネットワークに基づくいくつかの手法を比較した実験結果も含まれている。
論文 参考訳(メタデータ) (2020-11-19T13:40:03Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。