論文の概要: The Science Data Lake: A Unified Open Infrastructure Integrating 293 Million Papers Across Eight Scholarly Sources with Embedding-Based Ontology Alignment
- arxiv url: http://arxiv.org/abs/2603.03126v1
- Date: Tue, 03 Mar 2026 15:58:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.872282
- Title: The Science Data Lake: A Unified Open Infrastructure Integrating 293 Million Papers Across Eight Scholarly Sources with Embedding-Based Ontology Alignment
- Title(参考訳): 科学データレイク: 埋め込み型オントロジーアライメントを備えた8つの学術資料に293万の論文を統合する統一されたオープンインフラストラクチャ
- Authors: Jonas Wilinski,
- Abstract要約: 私たちは、DuckDBとParquetファイル上に構築されたローカルにデプロイ可能なインフラストラクチャであるScience Data Lakeを紹介します。
リソースは約960GBのParquetファイルで、2億2300万件の特定可能な文書にまたがる。
リソースはオープンソースで、HuggingFace経由でリモートでデプロイ可能で、大きな言語モデル(LLM)ベースの研究エージェントに適した構造化ドキュメントを含んでいる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scholarly data are largely fragmented across siloed databases with divergent metadata and missing linkages among them. We present the Science Data Lake, a locally-deployable infrastructure built on DuckDB and simple Parquet files that unifies eight open sources - Semantic Scholar, OpenAlex, SciSciNet, Papers with Code, Retraction Watch, Reliance on Science, a preprint-to-published mapping, and Crossref - via DOI normalization while preserving source-level schemas. The resource comprises approximately 960GB of Parquet files spanning ~293 million uniquely identifiable papers across ~22 schemas and ~153 SQL views. An embedding-based ontology alignment using BGE-large sentence embeddings maps 4,516 OpenAlex topics to 13 scientific ontologies (~1.3 million terms), yielding 16,150 mappings covering 99.8% of topics ($\geq 0.65$ threshold) with $F1 = 0.77$ at the recommended $\geq 0.85$ operating point, outperforming TF-IDF, BM25, and Jaro-Winkler baselines on a 300-pair gold-standard evaluation. We validate through 10 automated checks, cross-source citation agreement analysis (pairwise Pearson $r = 0.76$ - $0.87$), and stratified manual annotation. Four vignettes demonstrate cross-source analyses infeasible with any single database. The resource is open source, deployable on a single drive or queryable remotely via HuggingFace, and includes structured documentation suitable for large language model (LLM) based research agents.
- Abstract(参考訳): 学術データは主にサイロ化されたデータベースに分散したメタデータとリンクの欠如によって断片化されている。
我々は,DuckDB上に構築されたローカルデプロイ可能なインフラストラクチャであるScience Data Lakeと,SciSciNet,Papers with Code,Retraction Watch,Reliance on Science,preprint-to- published mapping,Crossrefという,8つのオープンソースを統一したシンプルなParquetファイルを,ソースレベルのスキーマを保存しながらDOI正規化することで提供する,Science Data Lakeを紹介した。
リソースは、およそ960GBのParquetファイルからなり、22のスキーマと153のSQLビューにまたがる、293万のユニークに識別可能な文書にまたがる。
BGE-large文の埋め込みを用いた埋め込み型オントロジーアライメントは、4,516のOpenAlexトピックを13の科学的オントロジー(約1.3百万項)にマッピングし、99.8%のトピックをカバーする16,150のマッピングを$F1 = 0.77$で、推奨の$\geq 0.85$オペポイントで、TF-IDF、BM25、Jaro-Winklerベースラインを300対のゴールド標準評価で上回る。
10の自動チェック、オープンソース間の引用合意分析(Pearson $r = 0.76$ - 0.7$)、階層化された手動アノテーションを通じて検証する。
4つのウィグレットは、任意の単一のデータベースで実現不可能なクロスソース分析を実証する。
リソースはオープンソースで、単一のドライブにデプロイ可能か、HuggingFace経由でリモートでクエリ可能で、大きな言語モデル(LLM)ベースのリサーチエージェントに適した構造化ドキュメントを含んでいる。
関連論文リスト
- MoDora: Tree-Based Semi-Structured Document Analysis System [62.01015188258797]
半構造化文書は、様々な不規則なレイアウトで配置された様々なインターリーブされたデータ要素を統合する。
MoDora は半構造化文書解析のための LLM を利用したシステムである。
実験では、MoDoraは5.97%-61.07%の精度でベースラインを上回っている。
論文 参考訳(メタデータ) (2026-02-26T14:48:49Z) - ExtractBench: A Benchmark and Evaluation Methodology for Complex Structured Extraction [11.272127170490059]
エンタープライズ規模のスキーマ幅でPDF-to-JSON抽出を評価するエンドツーエンドベンチマークはない。
ネスト抽出のセマンティクスを捉える原則的手法は存在しない。
ExtractBenchはPDFからJSONへの構造化抽出のためのオープンソースのベンチマークと評価フレームワークである。
論文 参考訳(メタデータ) (2026-02-12T18:31:37Z) - Structurally Human, Semantically Biased: Detecting LLM-Generated References with Embeddings and GNNs [7.158582263989492]
我々は、SciSciNetから1万の論文に対して、ペア化された引用グラフ、基底真理、GPT-4o生成(パラメトリック知識から)を構築した。
GPTは、ランダムなベースラインをきれいに拒否するにもかかわらず、地上の真理(RF精度$approx$0.60)とほとんど区別されないことを示す。
集約された埋め込み上のRFは$approx$ 0.83に達し、埋め込みノード機能を持つGNNはGPTと地上真実の93%のテスト精度を達成する。
論文 参考訳(メタデータ) (2026-01-28T15:37:31Z) - LLM-Guided Probabilistic Fusion for Label-Efficient Document Layout Analysis [6.908972852063454]
半教師あり学習の進歩にもかかわらず、文書レイアウトの理解はデータ集約的なままである。
本稿では、視覚的予測を構造的事前に融合させることにより、半教師付き検出を強化するフレームワークを提案する。
提案手法はモデルスケール間で一貫した利得を示す。
論文 参考訳(メタデータ) (2025-11-12T02:25:58Z) - HySemRAG: A Hybrid Semantic Retrieval-Augmented Generation Framework for Automated Literature Synthesis and Methodological Gap Analysis [55.2480439325792]
HySemRAGは、Extract, Transform, Load (ETL)パイプラインとRetrieval-Augmented Generation (RAG)を組み合わせたフレームワークである。
システムは、マルチ層アプローチを通じて既存のRAGアーキテクチャの制限に対処する。
論文 参考訳(メタデータ) (2025-08-01T20:30:42Z) - Beyond Isolated Dots: Benchmarking Structured Table Construction as Deep Knowledge Extraction [80.88654868264645]
Arranged and Organized extract Benchmarkは、断片化された文書を理解するための大規模言語モデルの能力を評価するために設計された。
AOEには3つの異なるドメインにまたがる11のタスクが含まれており、さまざまな入力クエリに適したコンテキスト固有のスキーマを生成するモデルが必要である。
結果は、最も先進的なモデルでさえ、かなり苦労したことを示している。
論文 参考訳(メタデータ) (2025-07-22T06:37:51Z) - Text-Driven Neural Collaborative Filtering Model for Paper Source Tracing [1.124958340749622]
PST(Paper Source Tracing)タスクは、与えられた学術論文に対する重要な参照の識別を自動化することを目的としている。
このフレームワークでは、最終的な予測を生成するために、Neural Collaborative Filtering(NCF)モデルを採用している。
本手法は平均精度(MAP)測定値で0.37814のスコアを達成し,ベースラインモデルを上回っ,全参加チームで11位となった。
論文 参考訳(メタデータ) (2024-07-25T02:48:56Z) - $\texttt{MixGR}$: Enhancing Retriever Generalization for Scientific Domain through Complementary Granularity [88.78750571970232]
本稿では,クエリ文書マッチングに対する高密度検索者の認識を改善するために,$texttMixGR$を紹介する。
$texttMixGR$は、粒度に基づくさまざまなメトリクスを統合スコアに融合させ、包括的なクエリドキュメントの類似性を反映させる。
論文 参考訳(メタデータ) (2024-07-15T13:04:09Z) - DocGenome: An Open Large-scale Scientific Document Benchmark for Training and Testing Multi-modal Large Language Models [63.466265039007816]
我々は、arXivオープンアクセスコミュニティの153の分野から500Kの科学文書を注釈付けして構築した構造化文書ベンチマークDocGenomeを提案する。
我々はDocGenomeの利点を実証するために広範な実験を行い、我々のベンチマークで大規模モデルの性能を客観的に評価した。
論文 参考訳(メタデータ) (2024-06-17T15:13:52Z) - SemOpenAlex: The Scientific Landscape in 26 Billion RDF Triples [0.0]
SemOpenAlexは、科学出版物とその関連エンティティに関する26億の3倍の知識グラフである。
当社は、RDFダンプファイル、SPARQLエンドポイント、Linked Open Dataクラウドのデータソースなど、複数のチャネルを通じてデータを提供しています。
論文 参考訳(メタデータ) (2023-08-07T15:46:39Z) - Document Layout Annotation: Database and Benchmark in the Domain of
Public Affairs [62.38140271294419]
レイアウトラベルの異なるデジタル文書を半自動アノテートする手法を提案する。
スペイン政府から24データソースの集合を用いて,行政領域におけるDLAの新しいデータベースを収集する。
実験の結果,提案したテキストラベリング手順を99%の精度で検証した。
論文 参考訳(メタデータ) (2023-06-12T08:21:50Z) - Multimodal Tree Decoder for Table of Contents Extraction in Document
Images [32.46909366312659]
テーブル・オブ・コンテント(ToC)抽出は、文書の様々なレベルの見出しを抽出し、内容のアウトラインをよりよく理解することを目的としている。
まず,学術論文の650件の資料とコンテンツラベルによるイメージサンプルを含む,標準データセットであるHierDocを紹介した。
本稿では,ToCのマルチモーダルツリーデコーダ(MTD)をHierDocのベンチマークとして用いた新しいエンドツーエンドモデルを提案する。
論文 参考訳(メタデータ) (2022-12-06T11:38:31Z) - Exploring and Evaluating Attributes, Values, and Structures for Entity
Alignment [100.19568734815732]
エンティティアライメント(EA)は、さまざまなKGから等価なエンティティをリンクすることで、リッチコンテンツの統合知識グラフ(KG)を構築することを目的としている。
属性・トリプルは重要なアライメント信号も提供できますが、まだ十分に調査されていません。
本稿では,属性値エンコーダを用いてKGをサブグラフに分割し,属性の様々なタイプを効率的にモデル化することを提案する。
論文 参考訳(メタデータ) (2020-10-07T08:03:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。