論文の概要: ACL-Fig: A Dataset for Scientific Figure Classification
- arxiv url: http://arxiv.org/abs/2301.12293v1
- Date: Sat, 28 Jan 2023 20:27:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 18:03:27.850261
- Title: ACL-Fig: A Dataset for Scientific Figure Classification
- Title(参考訳): ACL-Fig: 科学的フィギュア分類のためのデータセット
- Authors: Zeba Karishma, Shaurya Rohatgi, Kavya Shrinivas Puranik, Jian Wu, C.
Lee Giles
- Abstract要約: 科学文献から図形と表を抽出するパイプラインと、視覚的特徴を用いて科学的図形を分類するディープラーニングベースのフレームワークを開発する。
ACLアンソロジーにおける56K研究論文から抽出された112,052の科学的資料からなる,最初の大規模自動注釈コーパスであるACL-Figを構築した。
ACL-Fig-Pilotデータセットには、19のカテゴリに属する1,671の科学的数字が含まれている。
- 参考スコア(独自算出の注目度): 15.241086410108512
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Most existing large-scale academic search engines are built to retrieve
text-based information. However, there are no large-scale retrieval services
for scientific figures and tables. One challenge for such services is
understanding scientific figures' semantics, such as their types and purposes.
A key obstacle is the need for datasets containing annotated scientific figures
and tables, which can then be used for classification, question-answering, and
auto-captioning. Here, we develop a pipeline that extracts figures and tables
from the scientific literature and a deep-learning-based framework that
classifies scientific figures using visual features. Using this pipeline, we
built the first large-scale automatically annotated corpus, ACL-Fig, consisting
of 112,052 scientific figures extracted from ~56K research papers in the ACL
Anthology. The ACL-Fig-Pilot dataset contains 1,671 manually labeled scientific
figures belonging to 19 categories. The dataset is accessible at
https://huggingface.co/datasets/citeseerx/ACL-fig under a CC BY-NC license.
- Abstract(参考訳): 既存の大規模学術検索エンジンのほとんどは、テキストベースの情報を取得するために作られている。
しかし、科学的な数字や表の大規模な検索サービスはない。
このようなサービスの課題の1つは、科学的な人物のセマンティクス、例えばその種類や目的を理解することである。
重要な障害は、アノテートされた科学的な図形とテーブルを含むデータセットの必要性である。
本稿では,科学文献から図形と表を抽出するパイプラインと,視覚特徴を用いて科学的図形を分類するディープラーニングフレームワークを開発した。
このパイプラインを用いて,ACLアンソロジーにおける56K以上の研究論文から抽出された112,052個の科学的データからなる,最初の大規模自動注釈コーパスACL-Figを構築した。
ACL-Fig-Pilotデータセットには、19のカテゴリに属する1,671の科学的数字が含まれている。
データセットはCC BY-NCライセンス下でhttps://huggingface.co/datasets/citeseerx/ACL-figでアクセスできる。
関連論文リスト
- The ACL OCL Corpus: Advancing Open Science in Computational Linguistics [19.282407097200917]
ACL OCLは70年間に渡り、73Kの論文と210Kの数字を含んでいる。
教師付きニューラルモデルで論文のトピックを検出することで、"Syntax: Tagging, Chunking and Parsing"への関心が薄れ、"hugging Language Generation"が復活しつつあることに注意する。
論文 参考訳(メタデータ) (2023-05-24T10:35:56Z) - S2abEL: A Dataset for Entity Linking from Scientific Tables [15.300960829210164]
科学表におけるエンティティリンクのための最初のデータセットを提示する。
我々のデータセットであるS2abELは、機械学習結果テーブルにおけるELに焦点を当てています。
科学表上に, EL のための神経ベースライン法を導入する。
論文 参考訳(メタデータ) (2023-04-30T02:07:22Z) - The Semantic Scholar Open Data Platform [79.4493235243312]
セマンティック・スカラー(Semantic Scholar、S2)は、学術文献の発見と理解を支援することを目的としたオープンデータプラットフォームおよびウェブサイトである。
我々は、学術的なPDFコンテンツ抽出と知識グラフの自動構築のための最先端技術を用いて、パブリックおよびプロプライエタリなデータソースを組み合わせる。
このグラフには、構造解析されたテキスト、自然言語要約、ベクトル埋め込みなどの高度な意味的特徴が含まれている。
論文 参考訳(メタデータ) (2023-01-24T17:13:08Z) - Structured information extraction from complex scientific text with
fine-tuned large language models [55.96705756327738]
そこで本研究では,共振器認識と関係抽出のための簡単なシーケンス・ツー・シーケンス手法を提案する。
このアプローチは、約500組のプロンプトで微調整された、事前訓練済みの大規模言語モデル(LLM)であるGPT-3を利用する。
このアプローチは、構造化されていないテキストから抽出された構造化知識の大規模なデータベースを得るための、シンプルで、アクセス可能で、非常に柔軟な経路を示す。
論文 参考訳(メタデータ) (2022-12-10T07:51:52Z) - Hierarchical Multi-Label Classification of Scientific Documents [47.293189105900524]
我々はSciHTCと呼ばれる科学論文の階層的多ラベルテキスト分類のための新しいデータセットを提案する。
このデータセットは、ACM CCSツリーから186,160の論文と1,233のカテゴリを含んでいる。
我々の最良のモデルでは、マクロF1スコアが34.57%に達し、このデータセットが大きな研究機会を提供することを示す。
論文 参考訳(メタデータ) (2022-11-05T04:12:57Z) - SciCap: Generating Captions for Scientific Figures [20.696070723932866]
SCICAPは,2010年から2020年にかけて発行されたコンピュータサイエンスarXiv論文をベースとした大規模フィギュアキャプションデータセットである。
前処理後、SCICAPは290,000件以上の論文から200万件以上を抽出した。
グラフプロットをキャプションするベースラインモデルを構築した(19.2%)。
論文 参考訳(メタデータ) (2021-10-22T07:10:41Z) - TDMSci: A Specialized Corpus for Scientific Literature Entity Tagging of
Tasks Datasets and Metrics [32.4845534482475]
NLP論文から抽出した2000の文に対して、タスク(T)、データセット(D)、メトリック(M)エンティティのドメインエキスパートアノテーションを含む新しいコーパスを提案する。
簡便なデータ拡張戦略を用いたtdm抽出実験の結果を報告し,aclから約30,000のnlp論文に適用した。
論文 参考訳(メタデータ) (2021-01-25T17:54:06Z) - ParaSCI: A Large Scientific Paraphrase Dataset for Longer Paraphrase
Generation [78.10924968931249]
parasciは科学分野で最初の大規模パラフレーズデータセットである。
このデータセットは、ACL(ParaSCI-ACL)から33,981対、arXiv(ParaSCI-arXiv)から316,063対を含む。
論文 参考訳(メタデータ) (2021-01-21T01:10:06Z) - COVID-19 Knowledge Graph: Accelerating Information Retrieval and
Discovery for Scientific Literature [23.279540233851993]
新型コロナウイルス(COVID-19)の感染者は35万人を超え、全世界で600万人以上が感染している。
新型コロナウイルス(COVID-19)で急速に成長しているコーパスから情報を見つけ出すための追加のツールを研究者に提供するために、いくつかの検索エンジンが浮上した。
我々は、COVID-19の記事間の複雑な関係を抽出し視覚化するための異種グラフである、CKG(COVID-19 Knowledge Graph)を提示する。
論文 参考訳(メタデータ) (2020-07-24T18:29:43Z) - CO-Search: COVID-19 Information Retrieval with Semantic Search, Question
Answering, and Abstractive Summarization [53.67205506042232]
CO-Searchは、新型コロナウイルスの文献上の複雑なクエリを処理するように設計された、レトリバーランサーセマンティック検索エンジンである。
ドメイン固有の比較的限られたデータセットを考慮し、文書の段落と引用の2部グラフを生成する。
TREC-COVID情報検索課題のデータに基づいて,本システムの評価を行った。
論文 参考訳(メタデータ) (2020-06-17T01:32:48Z) - Informational Space of Meaning for Scientific Texts [68.8204255655161]
本稿では,単語の意味を,テキストが属する対象カテゴリに関する相対情報ゲイン(RIG)のベクトルで表現する意味空間を紹介する。
Leicester Scientific Corpus (LSC) と Leicester Scientific Dictionary-Core (LScDC) に基づく意味空間の構築に本手法を適用した。
RIGに基づく提案モデルでは,カテゴリ内の話題特化語を際立たせる能力があることが示されている。
論文 参考訳(メタデータ) (2020-04-28T14:26:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。