Fugu-MT 論文翻訳(概要): Object Recognition from Scientific Document based on Compartment Refinement Framework

論文の概要: Object Recognition from Scientific Document based on Compartment Refinement Framework

arxiv url: http://arxiv.org/abs/2312.09038v3
Date: Thu, 4 Jul 2024 13:51:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-09 00:32:39.285324
Title: Object Recognition from Scientific Document based on Compartment Refinement Framework
Title（参考訳）: 比較リファインメントフレームワークを用いた科学文書からの物体認識
Authors: Jinghong Li, Wen Gu, Koichi Ota, Shinobu Hasegawa,
Abstract要約: 膨大な資源から貴重な情報を効率的に抽出することがますます重要になっている。科学文書の現在のデータ抽出方法は、ルールベース(RB)または機械学習(ML)アプローチを用いるのが一般的である。我々はCTBR(Compartment & Text Blocks Refinement)と呼ばれる新しい文書レイアウト分析フレームワークを提案する。
参考スコア（独自算出の注目度）: 2.699900017799093
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the rapid development of the internet in the past decade, it has become increasingly important to extract valuable information from vast resources efficiently, which is crucial for establishing a comprehensive digital ecosystem, particularly in the context of research surveys and comprehension. The foundation of these tasks focuses on accurate extraction and deep mining of data from scientific documents, which are essential for building a robust data infrastructure. However, parsing raw data or extracting data from complex scientific documents have been ongoing challenges. Current data extraction methods for scientific documents typically use rule-based (RB) or machine learning (ML) approaches. However, using rule-based methods can incur high coding costs for articles with intricate typesetting. Conversely, relying solely on machine learning methods necessitates annotation work for complex content types within the scientific document, which can be costly. Additionally, few studies have thoroughly defined and explored the hierarchical layout within scientific documents. The lack of a comprehensive definition of the internal structure and elements of the documents indirectly impacts the accuracy of text classification and object recognition tasks. From the perspective of analyzing the standard layout and typesetting used in the specified publication, we propose a new document layout analysis framework called CTBR(Compartment & Text Blocks Refinement). Firstly, we define scientific documents into hierarchical divisions: base domain, compartment, and text blocks. Next, we conduct an in-depth exploration and classification of the meanings of text blocks. Finally, we utilize the results of text block classification to implement object recognition within scientific documents based on rule-based compartment segmentation.
Abstract（参考訳）: 過去10年間のインターネットの急速な発展に伴い、大規模な資源から貴重な情報を効率的に抽出することがますます重要になってきており、特に調査や理解の文脈において、包括的なデジタルエコシステムの確立に不可欠である。これらのタスクの基礎は、堅牢なデータ基盤を構築するのに不可欠である科学文書からのデータの正確な抽出と深層採掘に焦点を当てている。しかし、複雑な科学資料から生データを解析したり、データを抽出したりすることは、現在進行中の課題である。科学文書の現在のデータ抽出方法は、ルールベース(RB)または機械学習(ML)アプローチを用いるのが一般的である。しかし、ルールベースの手法を使えば、複雑なタイプセットを持つ記事に対して高いコーディングコストを発生させることができる。逆に、機械学習の手法にのみ依存するため、科学文書内の複雑なコンテンツタイプに対するアノテーション作業が必要であり、コストがかかる可能性がある。さらに、科学的文書の階層的レイアウトを徹底的に定義し、調査する研究はほとんどない。文書の内部構造と要素の包括的定義の欠如は、テキスト分類とオブジェクト認識タスクの精度に間接的に影響を及ぼす。特定出版物における標準レイアウトとタイプセットの分析の観点から,CTBR(Compartment & Text Blocks Refinement)と呼ばれる新しい文書レイアウト分析フレームワークを提案する。まず,学術文書を基本領域,コンパートメント,テキストブロックという階層的な区分に分類する。次に,テキストブロックの意味の詳細な探索と分類を行う。最後に,ルールベースのコンパートメントセグメンテーションに基づいて,テキストブロック分類の結果を用いて,科学的文書内にオブジェクト認識を実装した。

関連論文リスト

MoDora: Tree-Based Semi-Structured Document Analysis System [62.01015188258797]
半構造化文書は、様々な不規則なレイアウトで配置された様々なインターリーブされたデータ要素を統合する。 MoDora は半構造化文書解析のための LLM を利用したシステムである。実験では、MoDoraは5.97%-61.07%の精度でベースラインを上回っている。
論文参考訳（メタデータ） (2026-02-26T14:48:49Z)
HiPS: Hierarchical PDF Segmentation of Textbooks [2.2903728931592395]
法律教科書には、法規範の解釈と適用に不可欠な階層的な知識が含まれている。本稿では,オープンソース構造解析ツールに依存するTable of Contents(TOC)に基づく手法とアプローチについて検討する。解析精度を向上させるため、OCRベースのタイトル検出、XML由来の機能、コンテキストテキスト機能などの前処理戦略を取り入れた。
論文参考訳（メタデータ） (2025-08-31T15:40:43Z)
DISRetrieval: Harnessing Discourse Structure for Long Document Retrieval [51.89673002051528]
DISRetrievalは、言語談話構造を利用して長い文書理解を強化する新しい階層的検索フレームワークである。本研究は,談話構造が文書の長さや問合せの種類によって検索効率を著しく向上することを確認する。
論文参考訳（メタデータ） (2025-05-26T14:45:12Z)
Enhancing Abstractive Summarization of Scientific Papers Using Structure Information [6.414732533433283]
本稿では,学術論文における構造的機能の自動認識を活用する2段階の抽象的要約フレームワークを提案する。第1段階では,多くの学術論文から章題を標準化し,構造関数認識のための大規模データセットを構築した。第2段階では、Longformerを用いて、セクション間のリッチなコンテキスト関係をキャプチャし、コンテキスト対応の要約を生成する。
論文参考訳（メタデータ） (2025-05-20T10:34:45Z)
Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文参考訳（メタデータ） (2024-10-03T14:33:34Z)
SciMMIR: Benchmarking Scientific Multi-modal Information Retrieval [64.03631654052445]
科学領域内の画像テキストペアリングにおけるMMIR性能を評価するための最新のベンチマークは、顕著なギャップを示している。オープンアクセス用紙コレクションを利用した特殊な科学的MMIRベンチマークを開発する。このベンチマークは、科学的文書に詳細なキャプションのある数字や表から抽出された、530Kの精巧にキュレートされた画像テキストペアからなる。
論文参考訳（メタデータ） (2024-01-24T14:23:12Z)
Text Classification: A Perspective of Deep Learning Methods [0.0679877553227375]
本稿では,テキスト分類作業に必要な重要なステップを含む,深層学習に基づくテキスト分類アルゴリズムを提案する。論文の最後には、異なる深層学習テキスト分類法を比較し、要約する。
論文参考訳（メタデータ） (2023-09-24T21:49:51Z)
Interactive Distillation of Large Single-Topic Corpora of Scientific Papers [1.2954493726326113]
より堅牢だが時間を要するアプローチは、主題の専門家が文書を手書きするデータセットを構成的に構築することである。ここでは,学術文献のターゲットデータセットを構築的に生成するための,機械学習に基づく新しいツールを紹介する。
論文参考訳（メタデータ） (2023-09-19T17:18:36Z)
A Framework For Refining Text Classification and Object Recognition from Academic Articles [2.699900017799093]
現在の学術論文のデータマイニング手法はルールベース(RB)または機械学習(ML)アプローチを採用している。我々は,機械学習とルールベースのスキームハイブリッドであるテクストブロックリファインメントフレームワーク(TBRF)を開発した。
論文参考訳（メタデータ） (2023-05-27T07:59:49Z)
Transforming Unstructured Text into Data with Context Rule Assisted Machine Learning (CRAML) [0.0]
コンテキストルール支援機械学習(CRAML)法は、大量の非構造化テキストの正確な再現可能なラベル付けを可能にする。 CRAMLにより、ドメインの専門家はドキュメントコーパス内に埋もれている珍しい構造にアクセスすることができる。 CRAMLのユースケースは3つある: テキストデータから得られた最近の管理文献を分析し、プロプライエタリな求人広告テキストの分析から新しい機械学習モデルを記述・リリースし、フランチャイズ文書の公開コーパスから社会的・経済的関心の発見を示す。
論文参考訳（メタデータ） (2023-01-20T13:12:35Z)
TRIE++: Towards End-to-End Information Extraction from Visually Rich Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文参考訳（メタデータ） (2022-07-14T08:52:07Z)
Layout-Aware Information Extraction for Document-Grounded Dialogue: Dataset, Method and Demonstration [75.47708732473586]
視覚的にリッチな文書から構造的知識と意味的知識の両方を抽出するためのレイアウト対応文書レベル情報抽出データセット(LIE)を提案する。 LIEには製品および公式文書の4,061ページから3つの抽出タスクの62kアノテーションが含まれている。実験の結果、レイアウトはVRDベースの抽出に不可欠であることが示され、システムデモでは、抽出された知識が、ユーザが関心を持っている答えを見つけるのに役立つことも確認されている。
論文参考訳（メタデータ） (2022-07-14T07:59:45Z)
LDKP: A Dataset for Identifying Keyphrases from Long Scientific Documents [48.84086818702328]
テキスト文書からキーフレーズ(KP)を識別することは、自然言語処理と情報検索の基本的な課題である。このタスクのベンチマークデータセットの大部分は、ドキュメントのタイトルと抽象情報のみを含む科学領域からのものだ。人間が書いた要約はほとんどの文書では利用できないし、文書はほとんど常に長く、KPの比率はタイトルと抽象の限られた文脈を超えて直接見つかる。
論文参考訳（メタデータ） (2022-03-29T08:44:57Z)
Evaluation of a Region Proposal Architecture for Multi-task Document Layout Analysis [0.685316573653194]
Mask-RCNNアーキテクチャは、ベースライン検出と領域分割の問題に対処するために設計されている。 2つの手書きテキストデータセットと1つの手書き音楽データセットに関する実験結果を示す。分析したアーキテクチャは有望な結果をもたらし、3つのデータセットすべてで最先端のテクニックよりも優れています。
論文参考訳（メタデータ） (2021-06-22T14:07:27Z)
CitationIE: Leveraging the Citation Graph for Scientific Information Extraction [89.33938657493765]
引用論文と引用論文の参照リンクの引用グラフを使用する。最先端技術に対するエンド・ツー・エンドの情報抽出の大幅な改善を観察する。
論文参考訳（メタデータ） (2021-06-03T03:00:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。