論文の概要: CED: Catalog Extraction from Documents
- arxiv url: http://arxiv.org/abs/2304.14662v1
- Date: Fri, 28 Apr 2023 07:32:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-01 15:07:19.831001
- Title: CED: Catalog Extraction from Documents
- Title(参考訳): CED: 文書からのカタログ抽出
- Authors: Tong Zhu, Guoliang Zhang, Zechang Li, Zijian Yu, Junfei Ren, Mengsong
Wu, Zhefeng Wang, Baoxing Huai, Pingfu Chao, Wenliang Chen
- Abstract要約: 本稿では,文書をカタログ木に解析するトランジションベースのフレームワークを提案する。
CEDタスクは、非常に長い文書の原文セグメントと情報抽出タスクのギャップを埋める可能性があると考えています。
- 参考スコア(独自算出の注目度): 12.037861186708799
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sentence-by-sentence information extraction from long documents is an
exhausting and error-prone task. As the indicator of document skeleton,
catalogs naturally chunk documents into segments and provide informative
cascade semantics, which can help to reduce the search space. Despite their
usefulness, catalogs are hard to be extracted without the assist from external
knowledge. For documents that adhere to a specific template, regular
expressions are practical to extract catalogs. However, handcrafted heuristics
are not applicable when processing documents from different sources with
diverse formats. To address this problem, we build a large manually annotated
corpus, which is the first dataset for the Catalog Extraction from Documents
(CED) task. Based on this corpus, we propose a transition-based framework for
parsing documents into catalog trees. The experimental results demonstrate that
our proposed method outperforms baseline systems and shows a good ability to
transfer. We believe the CED task could fill the gap between raw text segments
and information extraction tasks on extremely long documents. Data and code are
available at \url{https://github.com/Spico197/CatalogExtraction}
- Abstract(参考訳): 長い文書からの文別情報抽出は、枯渇しやすい作業である。
文書骨格の指標として、カタログは自然に文書をセグメントに分類し、情報的なカスケードのセマンティクスを提供する。
その有用性にもかかわらず、カタログは外部知識の助けなしに抽出することは困難である。
特定のテンプレートに準拠する文書の場合、正規表現はカタログを抽出するのに実用的である。
しかし、様々なフォーマットで異なるソースから文書を処理する場合、手作りのヒューリスティックは適用できない。
この問題に対処するため,文書からのカタログ抽出(CED)タスクの最初のデータセットである,手動で注釈付きコーパスを構築した。
このコーパスに基づいて,文書をカタログ木にパースするトランジションベースのフレームワークを提案する。
実験の結果,提案手法はベースラインシステムより優れ,転送能力も良好であることがわかった。
CEDタスクは、非常に長い文書の原文セグメントと情報抽出タスクのギャップを埋める可能性があると考えています。
データとコードは \url{https://github.com/Spico197/CatalogExtraction} で入手できる。
関連論文リスト
- Unifying Multimodal Retrieval via Document Screenshot Embedding [92.03571344075607]
Document Screenshot Embedding (DSE)は、文書のスクリーンショットを統一的な入力フォーマットとして扱う新しい検索パラダイムである。
まず、Wiki-SSというウィキペディアのウェブページのスクリーンショットをコーパスとして作成し、Natural Questionsデータセットからの質問に答える。
このようなテキスト集約的な文書検索設定では、DSEは構文解析に依存する他のテキスト検索方法と比較して、競合効果を示す。
論文 参考訳(メタデータ) (2024-06-17T06:27:35Z) - PromptReps: Prompting Large Language Models to Generate Dense and Sparse Representations for Zero-Shot Document Retrieval [76.50690734636477]
本稿では,PmptRepsを提案する。このPmptRepsは,トレーニングを必要とせず,コーパス全体から検索できる機能である。
検索システムは、高密度テキスト埋め込みとスパースバッグ・オブ・ワード表現の両方を利用する。
論文 参考訳(メタデータ) (2024-04-29T04:51:30Z) - PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - Layout-Aware Information Extraction for Document-Grounded Dialogue:
Dataset, Method and Demonstration [75.47708732473586]
視覚的にリッチな文書から構造的知識と意味的知識の両方を抽出するためのレイアウト対応文書レベル情報抽出データセット(LIE)を提案する。
LIEには製品および公式文書の4,061ページから3つの抽出タスクの62kアノテーションが含まれている。
実験の結果、レイアウトはVRDベースの抽出に不可欠であることが示され、システムデモでは、抽出された知識が、ユーザが関心を持っている答えを見つけるのに役立つことも確認されている。
論文 参考訳(メタデータ) (2022-07-14T07:59:45Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - Combining Deep Learning and Reasoning for Address Detection in
Unstructured Text Documents [0.0]
本研究では,非構造化文書からアドレスを検索・抽出する手法として,ディープラーニングと推論を組み合わせたハイブリッド手法を提案する。
スキャンした文書画像上のアドレス領域の境界を検出するために,視覚的深層学習モデルを用いる。
論文 参考訳(メタデータ) (2022-02-07T12:32:00Z) - The Law of Large Documents: Understanding the Structure of Legal
Contracts Using Visual Cues [0.7425558351422133]
コンピュータビジョン手法を用いて得られた視覚的手がかりが文書理解タスクの精度に与える影響を計測する。
構造メタデータに基づく文書のセグメンテーション手法は,4つの文書理解タスクにおいて,既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-07-16T21:21:50Z) - Doc2Dict: Information Extraction as Text Generation [0.0]
Doc2Dictはドキュメントレベルの情報を抽出するパイプラインである。
既存のデータベースレコードの言語モデルをトレーニングし、構造化されたスパンを生成します。
チェックポインティングとチャンクエンコーディングを用いて,1つのベースライン上の最大32,000トークンのシーケンスに適用する。
論文 参考訳(メタデータ) (2021-05-16T20:46:29Z) - Extracting Variable-Depth Logical Document Hierarchy from Long
Documents: Method, Evaluation, and Application [21.270184491603864]
我々は、長いドキュメント(HELD)から階層抽出(Hierarchy extract)というフレームワークを開発し、各物理オブジェクトを現在のツリーの適切な位置に「逐次」挿入する。
中国、イギリスの金融市場、イギリスの科学出版物から何千もの長い文書に基づく実験。
本稿では,下流経路検索タスクの性能向上に論理文書階層を用いる方法を提案する。
論文 参考訳(メタデータ) (2021-05-14T06:26:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。