論文の概要: Object Recognition from Scientific Document based on Compartment Refinement Framework
- arxiv url: http://arxiv.org/abs/2312.09038v3
- Date: Thu, 4 Jul 2024 13:51:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 00:32:39.285324
- Title: Object Recognition from Scientific Document based on Compartment Refinement Framework
- Title(参考訳): 比較リファインメントフレームワークを用いた科学文書からの物体認識
- Authors: Jinghong Li, Wen Gu, Koichi Ota, Shinobu Hasegawa,
- Abstract要約: 膨大な資源から貴重な情報を効率的に抽出することがますます重要になっている。
科学文書の現在のデータ抽出方法は、ルールベース(RB)または機械学習(ML)アプローチを用いるのが一般的である。
我々はCTBR(Compartment & Text Blocks Refinement)と呼ばれる新しい文書レイアウト分析フレームワークを提案する。
- 参考スコア(独自算出の注目度): 2.699900017799093
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid development of the internet in the past decade, it has become increasingly important to extract valuable information from vast resources efficiently, which is crucial for establishing a comprehensive digital ecosystem, particularly in the context of research surveys and comprehension. The foundation of these tasks focuses on accurate extraction and deep mining of data from scientific documents, which are essential for building a robust data infrastructure. However, parsing raw data or extracting data from complex scientific documents have been ongoing challenges. Current data extraction methods for scientific documents typically use rule-based (RB) or machine learning (ML) approaches. However, using rule-based methods can incur high coding costs for articles with intricate typesetting. Conversely, relying solely on machine learning methods necessitates annotation work for complex content types within the scientific document, which can be costly. Additionally, few studies have thoroughly defined and explored the hierarchical layout within scientific documents. The lack of a comprehensive definition of the internal structure and elements of the documents indirectly impacts the accuracy of text classification and object recognition tasks. From the perspective of analyzing the standard layout and typesetting used in the specified publication, we propose a new document layout analysis framework called CTBR(Compartment & Text Blocks Refinement). Firstly, we define scientific documents into hierarchical divisions: base domain, compartment, and text blocks. Next, we conduct an in-depth exploration and classification of the meanings of text blocks. Finally, we utilize the results of text block classification to implement object recognition within scientific documents based on rule-based compartment segmentation.
- Abstract(参考訳): 過去10年間のインターネットの急速な発展に伴い、大規模な資源から貴重な情報を効率的に抽出することがますます重要になってきており、特に調査や理解の文脈において、包括的なデジタルエコシステムの確立に不可欠である。
これらのタスクの基礎は、堅牢なデータ基盤を構築するのに不可欠である科学文書からのデータの正確な抽出と深層採掘に焦点を当てている。
しかし、複雑な科学資料から生データを解析したり、データを抽出したりすることは、現在進行中の課題である。
科学文書の現在のデータ抽出方法は、ルールベース(RB)または機械学習(ML)アプローチを用いるのが一般的である。
しかし、ルールベースの手法を使えば、複雑なタイプセットを持つ記事に対して高いコーディングコストを発生させることができる。
逆に、機械学習の手法にのみ依存するため、科学文書内の複雑なコンテンツタイプに対するアノテーション作業が必要であり、コストがかかる可能性がある。
さらに、科学的文書の階層的レイアウトを徹底的に定義し、調査する研究はほとんどない。
文書の内部構造と要素の包括的定義の欠如は、テキスト分類とオブジェクト認識タスクの精度に間接的に影響を及ぼす。
特定出版物における標準レイアウトとタイプセットの分析の観点から,CTBR(Compartment & Text Blocks Refinement)と呼ばれる新しい文書レイアウト分析フレームワークを提案する。
まず,学術文書を基本領域,コンパートメント,テキストブロックという階層的な区分に分類する。
次に,テキストブロックの意味の詳細な探索と分類を行う。
最後に,ルールベースのコンパートメントセグメンテーションに基づいて,テキストブロック分類の結果を用いて,科学的文書内にオブジェクト認識を実装した。
関連論文リスト
- DocGenome: An Open Large-scale Scientific Document Benchmark for Training and Testing Multi-modal Large Language Models [63.466265039007816]
我々は、arXivオープンアクセスコミュニティの153の分野から500Kの科学文書を注釈付けして構築した構造化文書ベンチマークDocGenomeを提案する。
我々はDocGenomeの利点を実証するために広範な実験を行い、我々のベンチマークで大規模モデルの性能を客観的に評価した。
論文 参考訳(メタデータ) (2024-06-17T15:13:52Z) - SciMMIR: Benchmarking Scientific Multi-modal Information Retrieval [64.03631654052445]
科学領域内の画像テキストペアリングにおけるMMIR性能を評価するための最新のベンチマークは、顕著なギャップを示している。
オープンアクセス用紙コレクションを利用した特殊な科学的MMIRベンチマークを開発する。
このベンチマークは、科学的文書に詳細なキャプションのある数字や表から抽出された、530Kの精巧にキュレートされた画像テキストペアからなる。
論文 参考訳(メタデータ) (2024-01-24T14:23:12Z) - Text Classification: A Perspective of Deep Learning Methods [0.0679877553227375]
本稿では,テキスト分類作業に必要な重要なステップを含む,深層学習に基づくテキスト分類アルゴリズムを提案する。
論文の最後には、異なる深層学習テキスト分類法を比較し、要約する。
論文 参考訳(メタデータ) (2023-09-24T21:49:51Z) - Interactive Distillation of Large Single-Topic Corpora of Scientific
Papers [1.2954493726326113]
より堅牢だが時間を要するアプローチは、主題の専門家が文書を手書きするデータセットを構成的に構築することである。
ここでは,学術文献のターゲットデータセットを構築的に生成するための,機械学習に基づく新しいツールを紹介する。
論文 参考訳(メタデータ) (2023-09-19T17:18:36Z) - A Framework For Refining Text Classification and Object Recognition from Academic Articles [2.699900017799093]
現在の学術論文のデータマイニング手法はルールベース(RB)または機械学習(ML)アプローチを採用している。
我々は,機械学習とルールベースのスキームハイブリッドであるテクストブロックリファインメントフレームワーク(TBRF)を開発した。
論文 参考訳(メタデータ) (2023-05-27T07:59:49Z) - Transforming Unstructured Text into Data with Context Rule Assisted
Machine Learning (CRAML) [0.0]
コンテキストルール支援機械学習(CRAML)法は、大量の非構造化テキストの正確な再現可能なラベル付けを可能にする。
CRAMLにより、ドメインの専門家はドキュメントコーパス内に埋もれている珍しい構造にアクセスすることができる。
CRAMLのユースケースは3つある: テキストデータから得られた最近の管理文献を分析し、プロプライエタリな求人広告テキストの分析から新しい機械学習モデルを記述・リリースし、フランチャイズ文書の公開コーパスから社会的・経済的関心の発見を示す。
論文 参考訳(メタデータ) (2023-01-20T13:12:35Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - Layout-Aware Information Extraction for Document-Grounded Dialogue:
Dataset, Method and Demonstration [75.47708732473586]
視覚的にリッチな文書から構造的知識と意味的知識の両方を抽出するためのレイアウト対応文書レベル情報抽出データセット(LIE)を提案する。
LIEには製品および公式文書の4,061ページから3つの抽出タスクの62kアノテーションが含まれている。
実験の結果、レイアウトはVRDベースの抽出に不可欠であることが示され、システムデモでは、抽出された知識が、ユーザが関心を持っている答えを見つけるのに役立つことも確認されている。
論文 参考訳(メタデータ) (2022-07-14T07:59:45Z) - LDKP: A Dataset for Identifying Keyphrases from Long Scientific
Documents [48.84086818702328]
テキスト文書からキーフレーズ(KP)を識別することは、自然言語処理と情報検索の基本的な課題である。
このタスクのベンチマークデータセットの大部分は、ドキュメントのタイトルと抽象情報のみを含む科学領域からのものだ。
人間が書いた要約はほとんどの文書では利用できないし、文書はほとんど常に長く、KPの比率はタイトルと抽象の限られた文脈を超えて直接見つかる。
論文 参考訳(メタデータ) (2022-03-29T08:44:57Z) - Evaluation of a Region Proposal Architecture for Multi-task Document
Layout Analysis [0.685316573653194]
Mask-RCNNアーキテクチャは、ベースライン検出と領域分割の問題に対処するために設計されている。
2つの手書きテキストデータセットと1つの手書き音楽データセットに関する実験結果を示す。
分析したアーキテクチャは有望な結果をもたらし、3つのデータセットすべてで最先端のテクニックよりも優れています。
論文 参考訳(メタデータ) (2021-06-22T14:07:27Z) - CitationIE: Leveraging the Citation Graph for Scientific Information
Extraction [89.33938657493765]
引用論文と引用論文の参照リンクの引用グラフを使用する。
最先端技術に対するエンド・ツー・エンドの情報抽出の大幅な改善を観察する。
論文 参考訳(メタデータ) (2021-06-03T03:00:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。