論文の概要: AceParse: A Comprehensive Dataset with Diverse Structured Texts for Academic Literature Parsing
- arxiv url: http://arxiv.org/abs/2409.10016v1
- Date: Mon, 16 Sep 2024 06:06:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 16:30:58.882503
- Title: AceParse: A Comprehensive Dataset with Diverse Structured Texts for Academic Literature Parsing
- Title(参考訳): AceParse: 学術文献解析のための多言語構造化テキストを用いた総合データセット
- Authors: Huawei Ji, Cheng Deng, Bo Xue, Zhouyang Jin, Jiaxin Ding, Xiaoying Gan, Luoyi Fu, Xinbing Wang, Chenghu Zhou,
- Abstract要約: AceParseは構造化テキストのパースをサポートするために設計された最初の包括的なデータセットである。
AceParseに基づいて、さまざまな構造化テキストを正確に解析するマルチモーダルモデルAceを微調整した。
このモデルは、F1スコアで4.1%、ジャカルド類似度で5%、以前の最先端技術よりも優れていた。
- 参考スコア(独自算出の注目度): 82.33075210051129
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With the development of data-centric AI, the focus has shifted from model-driven approaches to improving data quality. Academic literature, as one of the crucial types, is predominantly stored in PDF formats and needs to be parsed into texts before further processing. However, parsing diverse structured texts in academic literature remains challenging due to the lack of datasets that cover various text structures. In this paper, we introduce AceParse, the first comprehensive dataset designed to support the parsing of a wide range of structured texts, including formulas, tables, lists, algorithms, and sentences with embedded mathematical expressions. Based on AceParse, we fine-tuned a multimodal model, named AceParser, which accurately parses various structured texts within academic literature. This model outperforms the previous state-of-the-art by 4.1% in terms of F1 score and by 5% in Jaccard Similarity, demonstrating the potential of multimodal models in academic literature parsing. Our dataset is available at https://github.com/JHW5981/AceParse.
- Abstract(参考訳): データ中心のAIの開発により、モデル駆動のアプローチからデータ品質の改善へと焦点が移った。
アカデミック文学は、重要なタイプの1つであり、主にPDF形式で保存されており、さらなる処理の前にテキストに解析する必要がある。
しかし、さまざまなテキスト構造をカバーするデータセットが不足しているため、学術文献で多種多様な構造化テキストを解析することは依然として困難である。
本稿では,式,表,リスト,アルゴリズム,組込み数式を含む幅広い構造化テキストの構文解析をサポートするために設計された,最初の包括的データセットであるAceParseを紹介する。
AceParserという名前のマルチモーダルモデルを微調整し、学術文献の様々な構造化テキストを正確に解析した。
このモデルはF1スコアで4.1%、Jaccard類似度で5%、学術文献解析におけるマルチモーダルモデルの可能性を示している。
私たちのデータセットはhttps://github.com/JHW5981/AceParseで公開されています。
関連論文リスト
- VTechAGP: An Academic-to-General-Audience Text Paraphrase Dataset and Benchmark Models [5.713983191152314]
VTechAGPは、最初の学術から一般のテキストパラフレーズデータセットである。
また,新しい動的ソフトプロンプト生成言語モデルDSPT5を提案する。
トレーニングでは、動的プロンプトでキーワードを学習するために、コントラッシブ・ジェネレーション・ロス関数を利用する。
論文 参考訳(メタデータ) (2024-11-07T16:06:00Z) - A multi-level multi-label text classification dataset of 19th century Ottoman and Russian literary and critical texts [8.405938712823563]
本稿では,3000以上の文書からなる多レベル多言語テキスト分類データセットを提案する。
このデータセットは19世紀のトルコ語とロシア語の文学的および批判的なテキストを特徴としている。
このデータセットに大規模言語モデル(LLM)を適用した最初の研究である。
論文 参考訳(メタデータ) (2024-07-21T12:14:45Z) - XFormParser: A Simple and Effective Multimodal Multilingual Semi-structured Form Parser [35.69888780388425]
本研究では, 単純だが効果的な textbfMultimodal と textbfMultilingual semi-structured textbfFORM textbfXForm フレームワークを提案する。
textbfXFormは、包括的な事前訓練された言語モデルに固定されており、革新的にエンティティ認識とリレーショナルREである。
本フレームワークは,マルチ言語およびゼロショットの両文脈において,タスク間の性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-05-27T16:37:17Z) - OmniParser: A Unified Framework for Text Spotting, Key Information Extraction and Table Recognition [79.852642726105]
多様なシナリオにまたがって視覚的なテキストを解析するための統一パラダイムを提案する。
具体的には,3つの視覚的なテキスト解析タスクを同時に処理できるOmniというユニバーサルモデルを提案する。
オムニでは、全てのタスクが統一エンコーダ・デコーダアーキテクチャ、統一目的点条件テキスト生成、統一入力表現を共有している。
論文 参考訳(メタデータ) (2024-03-28T03:51:14Z) - Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。
我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。
実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-31T02:13:18Z) - unarXive 2022: All arXiv Publications Pre-Processed for NLP, Including
Structured Full-Text and Citation Network [0.0]
我々は、unarXiveというデータセットの新バージョンを提案する。
得られたデータセットは、複数の分野にまたがる1.9Mの出版物と32年からなる。
データセットに加えて、引用レコメンデーションとIMRaD分類のための準備の整ったトレーニング/テストデータを提供する。
論文 参考訳(メタデータ) (2023-03-27T07:40:59Z) - Pre-training Language Model Incorporating Domain-specific Heterogeneous Knowledge into A Unified Representation [49.89831914386982]
本研究では, 構造化されていないテキスト, 半構造化されたテキスト, 十分に構造化されたテキストを含む, あらゆる形式のテキストに対して, 統一された事前学習言語モデル (PLM) を提案する。
提案手法は,データの1/4のみを用いて,プレーンテキストの事前学習に優れる。
論文 参考訳(メタデータ) (2021-09-02T16:05:24Z) - Minimally-Supervised Structure-Rich Text Categorization via Learning on
Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。
具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。
実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文 参考訳(メタデータ) (2021-02-23T04:14:34Z) - A High-Quality Multilingual Dataset for Structured Documentation
Translation [101.41835967142521]
本稿では,文書領域を対象とした高品質な多言語データセットを提案する。
エンタープライズソフトウェアプラットフォームのオンラインドキュメントからXML構造化の並列テキストセグメントを収集します。
論文 参考訳(メタデータ) (2020-06-24T02:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。