論文の概要: Nougat: Neural Optical Understanding for Academic Documents
- arxiv url: http://arxiv.org/abs/2308.13418v1
- Date: Fri, 25 Aug 2023 15:03:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-28 13:30:02.017202
- Title: Nougat: Neural Optical Understanding for Academic Documents
- Title(参考訳): nougat: 学術文書に対する神経光学的理解
- Authors: Lukas Blecher, Guillem Cucurull, Thomas Scialom, Robert Stojnic
- Abstract要約: 我々は,科学文書をマークアップ言語に変換する光学文字認識(OCR)タスクを実行するビジュアルトランスフォーマーモデルを提案する。
提案手法は,デジタル時代の科学的知識のアクセシビリティを高めるための,有望なソリューションを提供する。
- 参考スコア(独自算出の注目度): 15.242993369368111
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Scientific knowledge is predominantly stored in books and scientific
journals, often in the form of PDFs. However, the PDF format leads to a loss of
semantic information, particularly for mathematical expressions. We propose
Nougat (Neural Optical Understanding for Academic Documents), a Visual
Transformer model that performs an Optical Character Recognition (OCR) task for
processing scientific documents into a markup language, and demonstrate the
effectiveness of our model on a new dataset of scientific documents. The
proposed approach offers a promising solution to enhance the accessibility of
scientific knowledge in the digital age, by bridging the gap between
human-readable documents and machine-readable text. We release the models and
code to accelerate future work on scientific text recognition.
- Abstract(参考訳): 科学知識は、主に書籍や科学雑誌に保管され、しばしばpdf形式で保存される。
しかし、pdfフォーマットは意味的な情報、特に数学的表現が失われる原因となっている。
我々は,科学文書をマークアップ言語として処理する光学文字認識(OCR)タスクを実行するビジュアルトランスフォーマーモデルであるNougat(Neural Optical Understanding for Academic Documents)を提案する。
提案手法は,人間可読文書と機械可読テキストのギャップを埋めることで,デジタル時代の科学的知識のアクセシビリティを高めるための有望なソリューションを提供する。
我々は、科学的なテキスト認識の今後の取り組みを加速するために、モデルとコードをリリースする。
関連論文リスト
- ATLANTIC: Structure-Aware Retrieval-Augmented Language Model for
Interdisciplinary Science [0.0]
大きな言語モデルは、多くの自然言語処理タスクで印象的なパフォーマンスを記録します。
Retrieval augmentationは、外部の知識ソースからコンテキストを取得することで、効果的なソリューションを提供する。
本稿では,検索強化時に文書構造に対応する構造対応検索言語モデルを提案する。
論文 参考訳(メタデータ) (2023-11-21T02:02:46Z) - Large Language Models for Scientific Synthesis, Inference and
Explanation [56.41963802804953]
大規模言語モデルがどのように科学的合成、推論、説明を行うことができるかを示す。
我々は,この「知識」を科学的文献から合成することで,大きな言語モデルによって強化できることを示す。
このアプローチは、大きな言語モデルが機械学習システムの予測を説明することができるというさらなる利点を持っている。
論文 参考訳(メタデータ) (2023-10-12T02:17:59Z) - MIReAD: Simple Method for Learning High-quality Representations from
Scientific Documents [77.34726150561087]
論文の高品質な表現を学習する簡単な方法であるMIREADを提案する。
私たちは、2000以上のジャーナルクラスで50万以上のPubMedとarXivの抽象クラスでMIREADをトレーニングします。
論文 参考訳(メタデータ) (2023-05-07T03:29:55Z) - The Semantic Scholar Open Data Platform [79.4493235243312]
セマンティック・スカラー(Semantic Scholar、S2)は、学術文献の発見と理解を支援することを目的としたオープンデータプラットフォームおよびウェブサイトである。
我々は、学術的なPDFコンテンツ抽出と知識グラフの自動構築のための最先端技術を用いて、パブリックおよびプロプライエタリなデータソースを組み合わせる。
このグラフには、構造解析されたテキスト、自然言語要約、ベクトル埋め込みなどの高度な意味的特徴が含まれている。
論文 参考訳(メタデータ) (2023-01-24T17:13:08Z) - Modeling Information Change in Science Communication with Semantically
Matched Paraphrases [50.67030449927206]
SPICEDは、情報変化の度合いに注釈を付けた科学的な発見の最初のパラフレーズデータセットである。
SPICEDには、ニュース記事、ソーシャルメディアの議論、オリジナル論文の全文から抽出された6000の科学的発見ペアが含まれている。
SPICEDで訓練されたモデルは、実世界の科学的主張の事実チェックのための証拠検索において下流のパフォーマンスを改善する。
論文 参考訳(メタデータ) (2022-10-24T07:44:38Z) - Automated Creation and Human-assisted Curation of Computable Scientific
Models from Code and Text [2.3746609573239756]
ドメインエキスパートは、コードに詳しくなければ、科学的モデルの実装を完全に理解することはできない。
我々は,科学モデルの自動作成と人手によるキュレーションのためのシステムを開発した。
本研究では,NASAのハイパーソニック・エアロダイナミックス(Hypersonic Aerodynamics)のウェブサイトから得られたコードと関連テキストのデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2022-01-28T17:31:38Z) - CitationIE: Leveraging the Citation Graph for Scientific Information
Extraction [89.33938657493765]
引用論文と引用論文の参照リンクの引用グラフを使用する。
最先端技術に対するエンド・ツー・エンドの情報抽出の大幅な改善を観察する。
論文 参考訳(メタデータ) (2021-06-03T03:00:12Z) - Vision-Based Layout Detection from Scientific Literature using Recurrent
Convolutional Neural Networks [12.221478896815292]
本稿では,オブジェクト認識と分類のための畳み込みニューラルネットワークを科学的文献レイアウト検出(SLLD)に適用するためのアプローチを提案する。
SLLDは、いくつかの情報抽出問題の共有サブタスクである。
その結果,事前学習ベースネットワークの微調整による改善が得られた。
論文 参考訳(メタデータ) (2020-10-18T23:50:28Z) - SPECTER: Document-level Representation Learning using Citation-informed
Transformers [51.048515757909215]
SPECTERは、Transformer言語モデルの事前学習に基づいて、科学文書の文書レベルの埋め込みを生成する。
SciDocsは、引用予測から文書分類、レコメンデーションまでの7つの文書レベルのタスクからなる新しい評価ベンチマークである。
論文 参考訳(メタデータ) (2020-04-15T16:05:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。