論文の概要: Leveraging Collection-Wide Similarities for Unsupervised Document Structure Extraction
- arxiv url: http://arxiv.org/abs/2402.13906v2
- Date: Thu, 20 Jun 2024 14:43:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-22 05:09:24.246982
- Title: Leveraging Collection-Wide Similarities for Unsupervised Document Structure Extraction
- Title(参考訳): 教師なし文書構造抽出におけるコレクション・ウェイド類似の活用
- Authors: Gili Lior, Yoav Goldberg, Gabriel Stanovsky,
- Abstract要約: 本稿では,コレクション内の文書の典型的構造を特定することを提案する。
任意のヘッダのパラフレーズを抽象化し、各トピックを各ドキュメントのロケーションにグルーピングします。
文書間の類似性を利用した教師なしグラフベース手法を開発した。
- 参考スコア(独自算出の注目度): 61.998789448260005
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Document collections of various domains, e.g., legal, medical, or financial, often share some underlying collection-wide structure, which captures information that can aid both human users and structure-aware models. We propose to identify the typical structure of document within a collection, which requires to capture recurring topics across the collection, while abstracting over arbitrary header paraphrases, and ground each topic to respective document locations. These requirements pose several challenges: headers that mark recurring topics frequently differ in phrasing, certain section headers are unique to individual documents and do not reflect the typical structure, and the order of topics can vary between documents. Subsequently, we develop an unsupervised graph-based method which leverages both inter- and intra-document similarities, to extract the underlying collection-wide structure. Our evaluations on three diverse domains in both English and Hebrew indicate that our method extracts meaningful collection-wide structure, and we hope that future work will leverage our method for multi-document applications and structure-aware models.
- Abstract(参考訳): 法律、医療、財務などの様々な分野の文書コレクションは、人的ユーザと構造認識モデルの両方に役立つ情報をキャプチャする、根底にあるコレクション全体の構造を共有していることが多い。
本稿では,コレクション内の文書の典型的構造を特定することを提案する。これは,任意のヘッダのパラフレーズを抽象化し,各トピックを各ドキュメントの場所に対してグラウンド化しながら,コレクション全体で繰り返しトピックをキャプチャする必要がある。
これらの要件にはいくつかの課題がある: 繰り返し発生するトピックをマークするヘッダは言い換えると頻繁に異なり、特定のセクションヘッダは個々のドキュメントに固有のものであり、典型的な構造を反映せず、トピックの順序は文書によって異なる。
その後,文書間の類似性と文書内類似性を利用した教師なしグラフベースの手法を開発し,その基盤となるコレクション全体構造を抽出する。
英語とヘブライ語の両方における3つの異なる領域に対する評価は,本手法が有意義なコレクション全体構造を抽出することを示し,今後の研究が多文書アプリケーションや構造認識モデルに活用されることを願っている。
関連論文リスト
- Document Parsing Unveiled: Techniques, Challenges, and Prospects for Structured Information Extraction [23.47150047875133]
文書解析は、構造化されていない文書と半構造化された文書を機械可読データに変換するのに不可欠である。
文書解析は知識ベースの構築とトレーニングデータ生成において不可欠である。
本稿では,モジュール型文書解析システムと複雑なレイアウト処理における視覚言語モデルが直面する課題について論じる。
論文 参考訳(メタデータ) (2024-10-28T16:11:35Z) - Unified Multi-Modal Interleaved Document Representation for Information Retrieval [57.65409208879344]
我々は、異なるモダリティでインターリーブされた文書を均等に埋め込み、より包括的でニュアンスのある文書表現を生成する。
具体的には、テキスト、画像、テーブルの処理と統合を統一されたフォーマットと表現に統合する、近年のビジョン言語モデルの能力を活用して、これを実現する。
論文 参考訳(メタデータ) (2024-10-03T17:49:09Z) - PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z) - Topic Segmentation of Research Article Collections [4.0810783261728565]
紙データ収集のトピックセグメンテーションを行い、約700万枚の紙データ記録のマルチトピックデータセットを生成した。
データ記録から抽出したトピックの分類を構築し、その分類から対応するトピックで各ドキュメントに注釈を付ける。
この新たに提案されたデータセットは、様々な分野の文書の異種コレクションとして、あるいは単一の研究トピックの同種コレクションの集合として、2つのモードで使用できる。
論文 参考訳(メタデータ) (2022-05-18T15:19:42Z) - Large-Scale Multi-Document Summarization with Information Extraction and
Compression [31.601707033466766]
複数の異種文書のラベル付きデータとは無関係に抽象的な要約フレームワークを開発する。
我々のフレームワークは、同じトピックのドキュメントではなく、異なるストーリーを伝えるドキュメントを処理する。
我々の実験は、このより汎用的な設定において、我々のフレームワークが現在の最先端メソッドより優れていることを示した。
論文 参考訳(メタデータ) (2022-05-01T19:49:15Z) - Multi-View Document Representation Learning for Open-Domain Dense
Retrieval [87.11836738011007]
本稿では,多視点文書表現学習フレームワークを提案する。
ドキュメントを表現し、異なるクエリに合わせるように強制するために、マルチビューの埋め込みを作成することを目的としている。
実験により,本手法は最近の成果より優れ,最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-03-16T03:36:38Z) - WikiAsp: A Dataset for Multi-domain Aspect-based Summarization [69.13865812754058]
マルチドメインアスペクトベースの要約のための大規模データセットであるWikiAspを提案する。
具体的には、アスペクトアノテーションのプロキシとして、各記事のセクションタイトルとバウンダリを使用して、20の異なるドメインからウィキペディア記事を使用してデータセットを構築します。
その結果,既存の要約モデルがこの設定で直面する重要な課題,例えば引用されたソースの適切な代名詞処理,時間に敏感なイベントの一貫した説明などが浮き彫りになった。
論文 参考訳(メタデータ) (2020-11-16T10:02:52Z) - Multilevel Text Alignment with Cross-Document Attention [59.76351805607481]
既存のアライメントメソッドは、1つの事前定義されたレベルで動作します。
本稿では,文書を文書間注目要素で表現するための階層的アテンションエンコーダを予め確立した新しい学習手法を提案する。
論文 参考訳(メタデータ) (2020-10-03T02:52:28Z) - Identifying Documents In-Scope of a Collection from Web Archives [37.34941845795198]
本研究では,機械学習モデルと深層学習モデルの両方と,文書全体や文書の特定部分から抽出した"言葉の袋"(BoW)の特徴について検討する。
評価は3つの異なるWebアーカイブから作成した3つのデータセットに焦点をあてる。
実験の結果,文書の特定の部分のみに焦点をあてたBoW分類器は,全3つのデータセットで比較した手法よりも優れていた。
論文 参考訳(メタデータ) (2020-09-02T16:22:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。