Fugu-MT 論文翻訳(概要): Nougat: Neural Optical Understanding for Academic Documents

論文の概要: Nougat: Neural Optical Understanding for Academic Documents

arxiv url: http://arxiv.org/abs/2308.13418v1
Date: Fri, 25 Aug 2023 15:03:36 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-28 13:30:02.017202
Title: Nougat: Neural Optical Understanding for Academic Documents
Title（参考訳）: nougat: 学術文書に対する神経光学的理解
Authors: Lukas Blecher, Guillem Cucurull, Thomas Scialom, Robert Stojnic
Abstract要約: 我々は,科学文書をマークアップ言語に変換する光学文字認識(OCR)タスクを実行するビジュアルトランスフォーマーモデルを提案する。提案手法は,デジタル時代の科学的知識のアクセシビリティを高めるための,有望なソリューションを提供する。
参考スコア（独自算出の注目度）: 15.242993369368111
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Scientific knowledge is predominantly stored in books and scientific journals, often in the form of PDFs. However, the PDF format leads to a loss of semantic information, particularly for mathematical expressions. We propose Nougat (Neural Optical Understanding for Academic Documents), a Visual Transformer model that performs an Optical Character Recognition (OCR) task for processing scientific documents into a markup language, and demonstrate the effectiveness of our model on a new dataset of scientific documents. The proposed approach offers a promising solution to enhance the accessibility of scientific knowledge in the digital age, by bridging the gap between human-readable documents and machine-readable text. We release the models and code to accelerate future work on scientific text recognition.
Abstract（参考訳）: 科学知識は、主に書籍や科学雑誌に保管され、しばしばpdf形式で保存される。しかし、pdfフォーマットは意味的な情報、特に数学的表現が失われる原因となっている。我々は,科学文書をマークアップ言語として処理する光学文字認識(OCR)タスクを実行するビジュアルトランスフォーマーモデルであるNougat(Neural Optical Understanding for Academic Documents)を提案する。提案手法は,人間可読文書と機械可読テキストのギャップを埋めることで,デジタル時代の科学的知識のアクセシビリティを高めるための有望なソリューションを提供する。我々は、科学的なテキスト認識の今後の取り組みを加速するために、モデルとコードをリリースする。

関連論文リスト

The Discovery Engine: A Framework for AI-Driven Synthesis and Navigation of Scientific Knowledge Landscapes [0.0]
本稿では,文献を科学的領域の統一的,計算的に抽出可能な表現に変換するフレームワークであるDiscovery Engineを紹介する。 Discovery Engineは、AIが強化した科学調査と発見の加速のための新しいパラダイムを提供する。
論文参考訳（メタデータ） (2025-05-23T05:51:34Z)
SciMantify -- A Hybrid Approach for the Evolving Semantification of Scientific Knowledge [0.4499833362998487]
本稿では、5つ星リンクオープンデータ(LOD)モデルにインスパイアされた知識表現の進化モデルを提案する。我々はSciMantifyと呼ばれるハイブリッドアプローチを開発し、その進化するセマンティフィケーションをサポートする。我々は、科学知識の発見性、アクセシビリティ、相互運用性、再利用性を改善するための確立されたプラットフォームであるOpen Research Knowledge Graph(ORKG)にこのアプローチを実装します。
論文参考訳（メタデータ） (2025-04-14T07:57:55Z)
Collage: Decomposable Rapid Prototyping for Information Extraction on Scientific PDFs [15.610004991273005]
コラージュ(Colllage)は, 科学的PDF上での様々な情報抽出モデルの高速なプロトタイピング, 可視化, 評価を目的としたツールである。 NLPベースのツールの開発者とユーザの両方が、中間状態の詳細なビューを提供することで、パイプラインの検査、デバッグ、理解を深めることができます。
論文参考訳（メタデータ） (2024-10-30T22:00:34Z)
UNIT: Unifying Image and Text Recognition in One Vision Encoder [51.140564856352825]
UNITは、単一のモデル内で画像とテキストの認識を統一することを目的とした、新しいトレーニングフレームワークである。文書関連タスクにおいて,UNITが既存の手法を著しく上回ることを示す。注目すべきなのは、UNITはオリジナルのビジョンエンコーダアーキテクチャを保持しており、推論とデプロイメントの点で費用がかからないことだ。
論文参考訳（メタデータ） (2024-09-06T08:02:43Z)
DocReLM: Mastering Document Retrieval with Language Model [49.847369507694154]
本研究では,大規模言語モデルを利用することで,文書検索システムが高度な意味理解能力を実現することを実証する。我々のアプローチは、大規模言語モデルによって生成されたドメイン固有データを用いて、検索者と再ランカを訓練することである。我々は、量子物理学とコンピュータビジョンの分野の研究者によって注釈付けされたテストセットを使用して、システムの性能を評価する。
論文参考訳（メタデータ） (2024-05-19T06:30:22Z)
PEaCE: A Chemistry-Oriented Dataset for Optical Character Recognition on Scientific Documents [4.191058827240492]
合成と実世界の両方の記録を含むPEaCE(Printed English and Chemical Equations)データセットを提示する。本研究では,トランスモデルを用いたOCRモデルの有効性を評価する。
論文参考訳（メタデータ） (2024-03-23T05:20:36Z)
ATLANTIC: Structure-Aware Retrieval-Augmented Language Model for Interdisciplinary Science [0.0]
大きな言語モデルは、多くの自然言語処理タスクで印象的なパフォーマンスを記録します。 Retrieval augmentationは、外部の知識ソースからコンテキストを取得することで、効果的なソリューションを提供する。本稿では,検索強化時に文書構造に対応する構造対応検索言語モデルを提案する。
論文参考訳（メタデータ） (2023-11-21T02:02:46Z)
MIReAD: Simple Method for Learning High-quality Representations from Scientific Documents [77.34726150561087]
論文の高品質な表現を学習する簡単な方法であるMIREADを提案する。私たちは、2000以上のジャーナルクラスで50万以上のPubMedとarXivの抽象クラスでMIREADをトレーニングします。
論文参考訳（メタデータ） (2023-05-07T03:29:55Z)
The Semantic Scholar Open Data Platform [79.4493235243312]
セマンティック・スカラー(Semantic Scholar、S2)は、学術文献の発見と理解を支援することを目的としたオープンデータプラットフォームおよびウェブサイトである。我々は、学術的なPDFコンテンツ抽出と知識グラフの自動構築のための最先端技術を用いて、パブリックおよびプロプライエタリなデータソースを組み合わせる。このグラフには、構造解析されたテキスト、自然言語要約、ベクトル埋め込みなどの高度な意味的特徴が含まれている。
論文参考訳（メタデータ） (2023-01-24T17:13:08Z)
Modeling Information Change in Science Communication with Semantically Matched Paraphrases [50.67030449927206]
SPICEDは、情報変化の度合いに注釈を付けた科学的な発見の最初のパラフレーズデータセットである。 SPICEDには、ニュース記事、ソーシャルメディアの議論、オリジナル論文の全文から抽出された6000の科学的発見ペアが含まれている。 SPICEDで訓練されたモデルは、実世界の科学的主張の事実チェックのための証拠検索において下流のパフォーマンスを改善する。
論文参考訳（メタデータ） (2022-10-24T07:44:38Z)
Automated Creation and Human-assisted Curation of Computable Scientific Models from Code and Text [2.3746609573239756]
ドメインエキスパートは、コードに詳しくなければ、科学的モデルの実装を完全に理解することはできない。我々は,科学モデルの自動作成と人手によるキュレーションのためのシステムを開発した。本研究では,NASAのハイパーソニック・エアロダイナミックス(Hypersonic Aerodynamics)のウェブサイトから得られたコードと関連テキストのデータセットを用いて実験を行った。
論文参考訳（メタデータ） (2022-01-28T17:31:38Z)
Vision-Based Layout Detection from Scientific Literature using Recurrent Convolutional Neural Networks [12.221478896815292]
本稿では,オブジェクト認識と分類のための畳み込みニューラルネットワークを科学的文献レイアウト検出(SLLD)に適用するためのアプローチを提案する。 SLLDは、いくつかの情報抽出問題の共有サブタスクである。その結果,事前学習ベースネットワークの微調整による改善が得られた。
論文参考訳（メタデータ） (2020-10-18T23:50:28Z)
SPECTER: Document-level Representation Learning using Citation-informed Transformers [51.048515757909215]
SPECTERは、Transformer言語モデルの事前学習に基づいて、科学文書の文書レベルの埋め込みを生成する。 SciDocsは、引用予測から文書分類、レコメンデーションまでの7つの文書レベルのタスクからなる新しい評価ベンチマークである。
論文参考訳（メタデータ） (2020-04-15T16:05:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。