論文の概要: Lit2Vec: A Reproducible Workflow for Building a Legally Screened Chemistry Corpus from S2ORC for Downstream Retrieval and Text Mining
- arxiv url: http://arxiv.org/abs/2604.12498v1
- Date: Tue, 14 Apr 2026 09:26:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.373285
- Title: Lit2Vec: A Reproducible Workflow for Building a Legally Screened Chemistry Corpus from S2ORC for Downstream Retrieval and Text Mining
- Title(参考訳): Lit2Vec: 下流の検索とテキストマイニングのために、S2ORCから法的にスクリーニングされた化学コーパスを構築するための再現可能なワークフロー
- Authors: Mahmoud Amiri, Jamile Mohammad Jafari, Sara Mostafapour, Thomas Bocklitz,
- Abstract要約: 本稿では,Semantic Scholar Open Research Corpusから化学コーパスを構築し,検証するための再現可能なワークフローを提案する。
このワークフローを用いて,化学特異的フルテキスト研究論文582,683件の社内調査コーパスを作成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Lit2Vec, a reproducible workflow for constructing and validating a chemistry corpus from the Semantic Scholar Open Research Corpus using conservative, metadata-based license screening. Using this workflow, we assembled an internal study corpus of 582,683 chemistry-specific full-text research articles with structured full text, token-aware paragraph chunks, paragraph-level embeddings generated with the intfloat/e5-large-v2 model, and record-level metadata including abstracts and licensing information. To support downstream retrieval and text-mining use cases, an eligible subset of the corpus was additionally enriched with machine-generated brief summaries and multi-label subfield annotations spanning 18 chemistry domains. Licensing was screened using metadata from Unpaywall, OpenAlex, and Crossref, and the resulting corpus was technically validated for schema compliance, embedding reproducibility, text quality, and metadata completeness. The primary contribution of this work is a reproducible workflow for corpus construction and validation, together with its associated schema and reproducibility resources. The released materials include the code, reconstruction workflow, schema, metadata/provenance artifacts, and validation outputs needed to reproduce the corpus from pinned public upstream resources. Public redistribution of source-derived text and broad text-derived representations is outside the scope of the general release. Researchers can reproduce the workflow by using the released pipeline with publicly available upstream datasets and metadata services.
- Abstract(参考訳): 本稿では,セマンティック・スカラー・オープン・リサーチ・コーポレーション(Semantic Scholar Open Research Corpus)の化学コーパスの構築と検証を行うための再現可能なワークフローであるLit2Vecについて,保守的なメタデータベースのライセンススクリーニングを用いて紹介する。
このワークフローを用いて, 構造化フルテキスト, トークン対応段落, intfloat/e5-large-v2モデルで生成された段落レベルの埋め込み, 抽象情報やライセンス情報を含む記録レベルのメタデータを用いた, 582,683個の化学別全文研究論文を内部で収集した。
下流の検索とテキストマイニングのユースケースをサポートするため、コーパスの適切なサブセットには18の化学ドメインにまたがる機械生成の簡潔な要約とマルチラベルのサブフィールドアノテーションが加わった。
ライセンスはUnpaywall、OpenAlex、Crossrefのメタデータを使用してスクリーニングされ、結果として得られたコーパスは、スキーマコンプライアンス、再現性の埋め込み、テキスト品質、メタデータ完全性に対して技術的に検証された。
この研究の主な貢献は、コーパスの構築と検証のための再現可能なワークフローと、関連するスキーマと再現性リソースである。
リリースされた資料には、コード、再構築ワークフロー、スキーマ、メタデータ/プロパガンスアーティファクト、および、固定された公開上流リソースからコーパスを再生するために必要なバリデーション出力が含まれている。
ソース由来のテキストと幅広いテキスト由来の表現のパブリック再配布は、一般リリースの範囲外である。
研究者は、公開のアップストリームデータセットとメタデータサービスを備えたリリースパイプラインを使用することで、ワークフローを再現できる。
関連論文リスト
- Multilingual corpora for the study of new concepts in the social sciences and humanities: [0.0]
本稿では,人文科学と社会科学の新たな概念の研究を支援するために,多言語コーパスを構築するためのハイブリッド手法を提案する。
コーパスは,(1)企業ウェブサイトから自動的に抽出されたテキストコンテンツ,(2)文書基準(年,フォーマット,複製)に従って収集・フィルタリングされた年次報告,の2つの補完資料に依存している。
処理パイプラインは、自動言語検出、非関連コンテンツのフィルタリング、関連するセグメントの抽出、構造メタデータの強化を含む。
論文 参考訳(メタデータ) (2025-12-08T10:04:50Z) - Cite Pretrain: Retrieval-Free Knowledge Attribution for Large Language Models [44.31597857713689]
最初の段階でActive Indexingを導入し、一般化可能なソースアンコールバインディングを作成します。
Qwen-2.5-7B&3Bの実験は、アクティブインデックスがパッシブインデックスのベースラインを一貫して上回っていることを示している。
内部の引用は、モデルを検索ノイズに対してより堅牢にすることで、外部の引用を補完する。
論文 参考訳(メタデータ) (2025-06-21T04:48:05Z) - MOLE: Metadata Extraction and Validation in Scientific Papers Using LLMs [48.73595915402094]
MOLEは、アラビア語以外の言語のデータセットをカバーする科学論文からメタデータ属性を自動的に抽出するフレームワークである。
本手法では,複数の入力形式にまたがって文書全体を処理し,一貫した出力に対する堅牢な検証機構を組み込む。
論文 参考訳(メタデータ) (2025-05-26T10:31:26Z) - Chatting with Papers: A Hybrid Approach Using LLMs and Knowledge Graphs [3.68389405018277]
このデモでは、大規模な言語モデルと知識グラフを組み合わせて、コレクションによるナビゲーションをサポートする新しいワークフローのtextitGhostWriterが報告されている。
textitGhostWriterは、バックエンドの textitEverythingDataに基づいて、コレクションと'クエリとチャット'が可能なインターフェイスを提供する。
論文 参考訳(メタデータ) (2025-05-16T18:51:51Z) - Unstructured Evidence Attribution for Long Context Query Focused Summarization [53.08341620504465]
固定粒度の場合よりも、より関連性が高く一貫した証拠を得るために、非構造的(すなわち任意の長さのスパン)な証拠を抽出することを提案する。
既存のシステムが、非構造的証拠をコピーし、適切に引用するのにどのように苦労しているかを示す。
論文 参考訳(メタデータ) (2025-02-20T09:57:42Z) - The Power of Summary-Source Alignments [62.76959473193149]
多文書要約(MDS)は難しい課題であり、しばしばサリエンスと冗長性検出のサブタスクに分解される。
参照要約とそのソース文書間の対応する文のアライメントを利用して、トレーニングデータを生成する。
本稿では,よりきめ細かな提案スパンレベルで適用することで,要約ソースアライメントフレームワークを拡張することを提案する。
論文 参考訳(メタデータ) (2024-06-02T19:35:19Z) - Transforming Unstructured Text into Data with Context Rule Assisted
Machine Learning (CRAML) [0.0]
コンテキストルール支援機械学習(CRAML)法は、大量の非構造化テキストの正確な再現可能なラベル付けを可能にする。
CRAMLにより、ドメインの専門家はドキュメントコーパス内に埋もれている珍しい構造にアクセスすることができる。
CRAMLのユースケースは3つある: テキストデータから得られた最近の管理文献を分析し、プロプライエタリな求人広告テキストの分析から新しい機械学習モデルを記述・リリースし、フランチャイズ文書の公開コーパスから社会的・経済的関心の発見を示す。
論文 参考訳(メタデータ) (2023-01-20T13:12:35Z) - CiteBench: A benchmark for Scientific Citation Text Generation [69.37571393032026]
CiteBenchは引用テキスト生成のベンチマークである。
CiteBenchのコードはhttps://github.com/UKPLab/citebench.comで公開しています。
論文 参考訳(メタデータ) (2022-12-19T16:10:56Z) - Documenting the English Colossal Clean Crawled Corpus [28.008953329187648]
この作業は、Common Crawlの単一のスナップショットにフィルターのセットを適用することによって作成されたデータセットであるColossal Clean Crawled Corpus(C4; Raffel et al., 2020)の最初のドキュメントを提供します。
まず、テキストがどこから来ていつ書き込まれたかの分布を含む、データのハイレベルな要約から始めます。
次に、最も頻繁なテキストソースを含む、このデータの突出した部分に関するより詳細な分析を行う。
論文 参考訳(メタデータ) (2021-04-18T07:42:52Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。