論文の概要: SemOpenAlex: The Scientific Landscape in 26 Billion RDF Triples
- arxiv url: http://arxiv.org/abs/2308.03671v1
- Date: Mon, 7 Aug 2023 15:46:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 13:05:39.125321
- Title: SemOpenAlex: The Scientific Landscape in 26 Billion RDF Triples
- Title(参考訳): SemOpenAlex:26億RDFトリプルの科学的景観
- Authors: Michael F\"arber, David Lamprecht, Johan Krause, Linn Aung, Peter
Haase
- Abstract要約: SemOpenAlexは、科学出版物とその関連エンティティに関する26億の3倍の知識グラフである。
当社は、RDFダンプファイル、SPARQLエンドポイント、Linked Open Dataクラウドのデータソースなど、複数のチャネルを通じてデータを提供しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present SemOpenAlex, an extensive RDF knowledge graph that contains over
26 billion triples about scientific publications and their associated entities,
such as authors, institutions, journals, and concepts. SemOpenAlex is licensed
under CC0, providing free and open access to the data. We offer the data
through multiple channels, including RDF dump files, a SPARQL endpoint, and as
a data source in the Linked Open Data cloud, complete with resolvable URIs and
links to other data sources. Moreover, we provide embeddings for knowledge
graph entities using high-performance computing. SemOpenAlex enables a broad
range of use-case scenarios, such as exploratory semantic search via our
website, large-scale scientific impact quantification, and other forms of
scholarly big data analytics within and across scientific disciplines.
Additionally, it enables academic recommender systems, such as recommending
collaborators, publications, and venues, including explainability capabilities.
Finally, SemOpenAlex can serve for RDF query optimization benchmarks, creating
scholarly knowledge-guided language models, and as a hub for semantic
scientific publishing.
- Abstract(参考訳): semopen alexは、科学出版物とその関連エンティティ(著者、機関、ジャーナル、コンセプトなど)に関する26億以上のトリプルを含む、広範なrdfナレッジグラフである。
semopen alexはcc0ライセンスで、データへの無料かつオープンなアクセスを提供する。
RDFダンプファイル、SPARQLエンドポイント、Linked Open Dataクラウド内のデータソースとして、解決可能なURIと他のデータソースへのリンクを備えた複数のチャネルを通じてデータを提供します。
さらに,高性能コンピューティングによる知識グラフエンティティへの組込みも提供する。
SemOpenAlexは、Webサイトによる探索的セマンティックサーチ、大規模科学的影響定量化、科学分野における学術的ビッグデータ分析などの、幅広いユースケースシナリオを可能にします。
さらに、協力者、出版物、会場の推薦など学術的な推薦システムも可能で、説明性も備えている。
最後に、SemOpenAlexはRDFクエリ最適化のベンチマーク、学術的知識に基づく言語モデルの作成、意味科学出版のハブとして機能する。
関連論文リスト
- Knowledge-Aware Query Expansion with Large Language Models for Textual and Relational Retrieval [49.42043077545341]
知識グラフ(KG)から構造化文書関係を付加したLLMを拡張した知識対応クエリ拡張フレームワークを提案する。
文書テキストをリッチなKGノード表現として活用し、KAR(Knowledge-Aware Retrieval)のための文書ベースの関係フィルタリングを利用する。
論文 参考訳(メタデータ) (2024-10-17T17:03:23Z) - Contri(e)ve: Context + Retrieve for Scholarly Question Answering [0.0]
本稿では,オープンソースのLarge Language Model (LLM): Scholarly-QALDデータセット用のLlama3.1を提案する。
まず、異なる構造化データソースと非構造化データソースから質問に関連するコンテキストを抽出する。
第2に,LLMの情報検索性能を向上させるために,プロンプトエンジニアリングを実装した。
論文 参考訳(メタデータ) (2024-09-13T17:38:47Z) - Query of CC: Unearthing Large Scale Domain-Specific Knowledge from
Public Corpora [104.16648246740543]
大規模言語モデルに基づく効率的なデータ収集手法を提案する。
この方法は、大きな言語モデルを通してシード情報をブートストラップし、公開コーパスから関連データを検索する。
特定のドメインに関する知識関連のデータを収集するだけでなく、潜在的な推論手順でデータを抽出する。
論文 参考訳(メタデータ) (2024-01-26T03:38:23Z) - Linked Papers With Code: The Latest in Machine Learning as an RDF
Knowledge Graph [1.450405446885067]
Linked Papers With CodeはRDFの知識グラフで、40万近い機械学習出版物に関する包括的で現在の情報を提供する。
非RDFベースのPapers With Codeと比較して、LPWCは機械学習の最新の進歩をRDFフォーマットに変換する。
Linked Open Dataクラウドのナレッジグラフとして、RDFダンプファイルからSPARQLエンドポイントまで、複数のフォーマットでLPWCを提供しています。
論文 参考訳(メタデータ) (2023-10-31T14:09:15Z) - The Semantic Scholar Open Data Platform [79.4493235243312]
セマンティック・スカラー(Semantic Scholar、S2)は、学術文献の発見と理解を支援することを目的としたオープンデータプラットフォームおよびウェブサイトである。
我々は、学術的なPDFコンテンツ抽出と知識グラフの自動構築のための最先端技術を用いて、パブリックおよびプロプライエタリなデータソースを組み合わせる。
このグラフには、構造解析されたテキスト、自然言語要約、ベクトル埋め込みなどの高度な意味的特徴が含まれている。
論文 参考訳(メタデータ) (2023-01-24T17:13:08Z) - Lessons from Deep Learning applied to Scholarly Information Extraction:
What Works, What Doesn't, and Future Directions [12.62863659147376]
EneRexは、コンピュータ科学の分野における大規模なデータセットから、どのようにして重要な洞察を抽出できるかを示す。
既存のデータセットがキャパシティに制限されていること、EneRexが既存のナレッジグラフにどのように適合するかを強調します。
論文 参考訳(メタデータ) (2022-07-08T17:37:56Z) - Open Domain Question Answering over Virtual Documents: A Unified
Approach for Data and Text [62.489652395307914]
我々は、知識集約型アプリケーションのための構造化知識を符号化する手段として、Data-to-text法、すなわち、オープンドメイン質問応答(QA)を用いる。
具体的には、ウィキペディアとウィキソースの3つのテーブルを付加知識源として使用する、データとテキスト上でのオープンドメインQAのための冗長化-レトリバー・リーダー・フレームワークを提案する。
UDT-QA(Unified Data and Text QA)は,知識インデックスの拡大を効果的に活用できることを示す。
論文 参考訳(メタデータ) (2021-10-16T00:11:21Z) - Graph integration of structured, semistructured and unstructured data
for data journalism [0.0]
異種データソースの動的集合を統合するための完全なアプローチについて述べる。
提案手法はConnectionLensシステム内に実装されており,一連の実験を通じて検証する。
論文 参考訳(メタデータ) (2020-07-23T08:55:09Z) - SciREX: A Challenge Dataset for Document-Level Information Extraction [56.83748634747753]
ドキュメントレベルで大規模な情報抽出データセットを作成するのは難しい。
複数のIEタスクを含む文書レベルのIEデータセットであるSciREXを紹介する。
我々は、従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとして、ニューラルモデルを開発する。
論文 参考訳(メタデータ) (2020-05-01T17:30:10Z) - ENT-DESC: Entity Description Generation by Exploring Knowledge Graph [53.03778194567752]
実際には、出力記述が最も重要な知識のみをカバーするため、入力知識は十分以上である可能性がある。
我々は、KG-to-textにおけるこのような実践的なシナリオの研究を容易にするために、大規模で挑戦的なデータセットを導入する。
本稿では,元のグラフ情報をより包括的に表現できるマルチグラフ構造を提案する。
論文 参考訳(メタデータ) (2020-04-30T14:16:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。