論文の概要: The Law of Large Documents: Understanding the Structure of Legal
Contracts Using Visual Cues
- arxiv url: http://arxiv.org/abs/2107.08128v1
- Date: Fri, 16 Jul 2021 21:21:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-20 15:04:44.463358
- Title: The Law of Large Documents: Understanding the Structure of Legal
Contracts Using Visual Cues
- Title(参考訳): 大規模文書の法則:ビジュアルクイズを用いた法的契約の構造理解
- Authors: Allison Hegel, Marina Shah, Genevieve Peaslee, Brendan Roof, Emad
Elwany
- Abstract要約: コンピュータビジョン手法を用いて得られた視覚的手がかりが文書理解タスクの精度に与える影響を計測する。
構造メタデータに基づく文書のセグメンテーション手法は,4つの文書理解タスクにおいて,既存の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 0.7425558351422133
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large, pre-trained transformer models like BERT have achieved
state-of-the-art results on document understanding tasks, but most
implementations can only consider 512 tokens at a time. For many real-world
applications, documents can be much longer, and the segmentation strategies
typically used on longer documents miss out on document structure and
contextual information, hurting their results on downstream tasks. In our work
on legal agreements, we find that visual cues such as layout, style, and
placement of text in a document are strong features that are crucial to
achieving an acceptable level of accuracy on long documents. We measure the
impact of incorporating such visual cues, obtained via computer vision methods,
on the accuracy of document understanding tasks including document
segmentation, entity extraction, and attribute classification. Our method of
segmenting documents based on structural metadata out-performs existing methods
on four long-document understanding tasks as measured on the Contract
Understanding Atticus Dataset.
- Abstract(参考訳): BERTのような大規模で事前訓練されたトランスフォーマーモデルは、文書理解タスクで最先端の結果を得たが、ほとんどの実装では一度に512トークンしか考慮できない。
多くの現実世界のアプリケーションでは、ドキュメントはずっと長くなり、典型的には長いドキュメントで使われるセグメンテーション戦略は、ドキュメントの構造やコンテキスト情報を見逃し、下流のタスクで結果を損なう。
法的合意に関する本研究では,文書中のテキストのレイアウト,スタイル,配置といった視覚的な手がかりが,長い文書において許容できるレベルの精度を達成する上で不可欠な強力な特徴であることが分かりました。
文書分割,エンティティ抽出,属性分類などの文書理解タスクの精度に及ぼす,コンピュータビジョン法により得られたこのような視覚的手がかりを取り入れた影響を計測する。
構造メタデータに基づく文書分割手法は,契約理解atticusデータセット上で測定した4つの長期文書理解タスクにおいて,既存の手法よりも優れている。
関連論文リスト
- Unified Multi-Modal Interleaved Document Representation for Information Retrieval [57.65409208879344]
我々は、異なるモダリティでインターリーブされた文書を均等に埋め込み、より包括的でニュアンスのある文書表現を生成する。
具体的には、テキスト、画像、テーブルの処理と統合を統一されたフォーマットと表現に統合する、近年のビジョン言語モデルの能力を活用して、これを実現する。
論文 参考訳(メタデータ) (2024-10-03T17:49:09Z) - Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - DocGenome: An Open Large-scale Scientific Document Benchmark for Training and Testing Multi-modal Large Language Models [63.466265039007816]
我々は、arXivオープンアクセスコミュニティの153の分野から500Kの科学文書を注釈付けして構築した構造化文書ベンチマークDocGenomeを提案する。
我々はDocGenomeの利点を実証するために広範な実験を行い、我々のベンチマークで大規模モデルの性能を客観的に評価した。
論文 参考訳(メタデータ) (2024-06-17T15:13:52Z) - DocumentNet: Bridging the Data Gap in Document Pre-Training [78.01647768018485]
本稿では,Webから大規模かつ弱いラベル付きデータを収集し,VDERモデルの学習に役立てる手法を提案する。
収集されたデータセットはDocumentNetと呼ばれ、特定のドキュメントタイプやエンティティセットに依存しない。
広く採用されているVDERタスクの実験は、DocumentNetを事前トレーニングに組み込んだ場合、大幅に改善されている。
論文 参考訳(メタデータ) (2023-06-15T08:21:15Z) - DLUE: Benchmarking Document Language Understanding [32.550855843975484]
文書理解能力を包括的に評価する方法については、確固たるコンセンサスはない。
本稿では,文書分類,文書構造解析,文書情報抽出,文書書き起こしの4つの代表的能力について要約する。
新しい評価フレームワークでは、新しいタスクスイートである textbfDLUE の textbfDocument Language Understanding Evaluation を提案する。
論文 参考訳(メタデータ) (2023-05-16T15:16:24Z) - HADES: Homologous Automated Document Exploration and Summarization [3.3509104620016092]
HADESは大量の文書を扱う専門家の仕事の合理化を目的としている。
このツールは、トピックモデリング、要約、トピック毎の最も重要な単語の解析を用いてPDF文書の処理から始まる多段階パイプラインを使用する。
論文 参考訳(メタデータ) (2023-02-25T15:16:10Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - DocSegTr: An Instance-Level End-to-End Document Image Segmentation
Transformer [16.03084865625318]
ビジネスインテリジェンスプロセスは、しばしばドキュメントから有用なセマンティックコンテンツを抽出する必要がある。
本稿では,文書画像における複雑なレイアウトのエンドツーエンドセグメンテーションのためのトランスフォーマーモデルを提案する。
我々のモデルは、既存の最先端手法に比べて、同等またはより良いセグメンテーション性能を達成した。
論文 参考訳(メタデータ) (2022-01-27T10:50:22Z) - Timestamping Documents and Beliefs [1.4467794332678539]
文書デートは、文書の時間構造に関する推論を必要とする難しい問題である。
本稿では,グラフ畳み込みネットワーク(GCN)に基づく文書年代測定手法であるNeuralDaterを提案する。
また,注意に基づく文書デートシステムであるAD3: Attentive Deep Document Daterを提案する。
論文 参考訳(メタデータ) (2021-06-09T02:12:18Z) - Multilevel Text Alignment with Cross-Document Attention [59.76351805607481]
既存のアライメントメソッドは、1つの事前定義されたレベルで動作します。
本稿では,文書を文書間注目要素で表現するための階層的アテンションエンコーダを予め確立した新しい学習手法を提案する。
論文 参考訳(メタデータ) (2020-10-03T02:52:28Z) - Towards a Multi-modal, Multi-task Learning based Pre-training Framework
for Document Representation Learning [5.109216329453963]
本稿では,新しい事前学習タスクとして,文書トピックモデリングと文書シャッフル予測を導入する。
本稿では,Longformer ネットワークアーキテクチャをバックボーンとして,複数ページの文書からのマルチモーダル情報をエンド・ツー・エンドで符号化する。
論文 参考訳(メタデータ) (2020-09-30T05:39:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。