論文の概要: The Semantic Scholar Open Data Platform
- arxiv url: http://arxiv.org/abs/2301.10140v1
- Date: Tue, 24 Jan 2023 17:13:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-25 12:57:54.509739
- Title: The Semantic Scholar Open Data Platform
- Title(参考訳): Semantic Scholar Open Data Platform
- Authors: Rodney Kinney, Chloe Anastasiades, Russell Authur, Iz Beltagy,
Jonathan Bragg, Alexandra Buraczynski, Isabel Cachola, Stefan Candra,
Yoganand Chandrasekhar, Arman Cohan, Miles Crawford, Doug Downey, Jason
Dunkelberger, Oren Etzioni, Rob Evans, Sergey Feldman, Joseph Gorney, David
Graham, Fangzhou Hu, Regan Huff, Daniel King, Sebastian Kohlmeier, Bailey
Kuehl, Michael Langan, Daniel Lin, Haokun Liu, Kyle Lo, Jaron Lochner, Kelsey
MacMillan, Tyler Murray, Chris Newell, Smita Rao, Shaurya Rohatgi, Paul
Sayre, Zejiang Shen, Amanpreet Singh, Luca Soldaini, Shivashankar
Subramanian, Amber Tanaka, Alex D. Wade, Linda Wagner, Lucy Lu Wang, Chris
Wilhelm, Caroline Wu, Jiangjiang Yang, Angele Zamarron, Madeleine Van Zuylen,
Daniel S. Weld
- Abstract要約: セマンティック・スカラー(Semantic Scholar、S2)は、学術文献の発見と理解を支援することを目的としたオープンデータプラットフォームおよびウェブサイトである。
我々は、学術的なPDFコンテンツ抽出と知識グラフの自動構築のための最先端技術を用いて、パブリックおよびプロプライエタリなデータソースを組み合わせる。
このグラフには、構造解析されたテキスト、自然言語要約、ベクトル埋め込みなどの高度な意味的特徴が含まれている。
- 参考スコア(独自算出の注目度): 79.4493235243312
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The volume of scientific output is creating an urgent need for automated
tools to help scientists keep up with developments in their field. Semantic
Scholar (S2) is an open data platform and website aimed at accelerating science
by helping scholars discover and understand scientific literature. We combine
public and proprietary data sources using state-of-the-art techniques for
scholarly PDF content extraction and automatic knowledge graph construction to
build the Semantic Scholar Academic Graph, the largest open scientific
literature graph to-date, with 200M+ papers, 80M+ authors, 550M+
paper-authorship edges, and 2.4B+ citation edges. The graph includes advanced
semantic features such as structurally parsed text, natural language summaries,
and vector embeddings. In this paper, we describe the components of the S2 data
processing pipeline and the associated APIs offered by the platform. We will
update this living document to reflect changes as we add new data offerings and
improve existing services.
- Abstract(参考訳): 科学的なアウトプットの大量さは、科学者が分野の発展に追随するための自動化ツールの緊急ニーズを生み出している。
セマンティック・スカラー(Semantic Scholar、S2)は、学術文献の発見と理解を支援することを目的としたオープンデータプラットフォームおよびウェブサイトである。
我々は、学術的なPDFコンテンツ抽出と自動知識グラフ構築のための最先端技術を用いて、現在までに最大規模のオープンサイエンス文献グラフであるセマンティックスカラー学術グラフを構築し、200M以上の論文、80M以上の著者、550M以上の論文執筆者、2.4B以上の引用エッジを構築した。
このグラフには構造解析されたテキスト、自然言語要約、ベクター埋め込みといった高度な意味的特徴が含まれている。
本稿では,s2データ処理パイプラインのコンポーネントと,プラットフォームが提供する関連するapiについて述べる。
新しいデータの追加や既存のサービスの改善を反映して、この生きたドキュメントを更新します。
関連論文リスト
- SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。
SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z) - SciNews: From Scholarly Complexities to Public Narratives -- A Dataset for Scientific News Report Generation [20.994565065595232]
我々は、科学ニュースの自動生成を容易にするための新しいコーパスを提示する。
本データセットは,9分野にわたる学術出版物と,それに対応する科学報告から構成される。
我々は、最先端のテキスト生成モデルを用いてデータセットをベンチマークする。
論文 参考訳(メタデータ) (2024-03-26T14:54:48Z) - The Open Review-Based (ORB) dataset: Towards Automatic Assessment of
Scientific Papers and Experiment Proposals in High-Energy Physics [0.0]
新しい包括的オープンレビューベースデータセット(ORB)を紹介する。
これには36,000以上の科学論文のキュレートされたリストが含まれ、89,000以上のレビューと最終決定が含まれている。
本稿では,データアーキテクチャと収集データの概要と関連する統計について述べる。
論文 参考訳(メタデータ) (2023-11-29T20:52:02Z) - PubGraph: A Large-Scale Scientific Knowledge Graph [11.240833731512609]
PubGraphは、大規模な知識グラフの形式を取り入れた、科学的進歩を研究するための新しいリソースである。
PubGraphはWikidata、OpenAlex、Semantic Scholarなど、さまざまなソースからのデータを包括的に統合している。
知識グラフ補完のコアタスクとしてPubGraphから抽出した大規模ベンチマークを複数作成する。
論文 参考訳(メタデータ) (2023-02-04T20:03:55Z) - Citation Trajectory Prediction via Publication Influence Representation
Using Temporal Knowledge Graph [52.07771598974385]
既存のアプローチは主に学術論文の時間的データとグラフデータのマイニングに依存している。
本フレームワークは,差分保存グラフ埋め込み,きめ細かい影響表現,学習に基づく軌道計算という3つのモジュールから構成される。
APSアカデミックデータセットとAIPatentデータセットの両方で実験を行った。
論文 参考訳(メタデータ) (2022-10-02T07:43:26Z) - DeepShovel: An Online Collaborative Platform for Data Extraction in
Geoscience Literature with AI Assistance [48.55345030503826]
地質学者は、関連する結果やデータを発見、抽出、集約するために膨大な量の文献を読む必要がある。
DeepShovelは、彼らのニーズをサポートするAI支援データ抽出システムである。
14人の研究者によるユーザ評価の結果、DeepShovelは科学データベース構築のためのデータ抽出の効率を改善した。
論文 参考訳(メタデータ) (2022-02-21T12:18:08Z) - CitationIE: Leveraging the Citation Graph for Scientific Information
Extraction [89.33938657493765]
引用論文と引用論文の参照リンクの引用グラフを使用する。
最先端技術に対するエンド・ツー・エンドの情報抽出の大幅な改善を観察する。
論文 参考訳(メタデータ) (2021-06-03T03:00:12Z) - Enhancing Scientific Papers Summarization with Citation Graph [78.65955304229863]
引用グラフを用いて科学論文の要約作業を再定義します。
我々は,141kの研究論文を異なる領域に格納した,新しい科学論文要約データセットセマンティックスタディネットワーク(ssn)を構築した。
我々のモデルは、事前訓練されたモデルと比較して競争性能を達成することができる。
論文 参考訳(メタデータ) (2021-04-07T11:13:35Z) - PubSqueezer: A Text-Mining Web Tool to Transform Unstructured Documents
into Structured Data [0.0]
テキストマイニング戦略を用いて非構造化バイオメディカル物品を構造化データに変換するウェブツールを提案する。
生成された結果は、明らかに報告されていない情報を示す可能性のある、複雑なトピックに関する簡単な概要を提供する。
PubSqueezer を用いた文献分析により,SARS-CoV-2 に関する既知の事実を記述できることを示す。
論文 参考訳(メタデータ) (2020-11-05T22:23:18Z) - Generating Knowledge Graphs by Employing Natural Language Processing and
Machine Learning Techniques within the Scholarly Domain [1.9004296236396943]
本稿では、自然言語処理と機械学習を利用して研究論文から実体や関係を抽出する新しいアーキテクチャを提案する。
本研究では,現在最先端の自然言語処理ツールとテキストマイニングツールを用いて,知識抽出の課題に取り組む。
セマンティックWebドメイン内の論文26,827件から抽出した109,105件のトリプルを含む科学知識グラフを作成した。
論文 参考訳(メタデータ) (2020-10-28T08:31:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。