論文の概要: HADES: Homologous Automated Document Exploration and Summarization
- arxiv url: http://arxiv.org/abs/2302.13099v1
- Date: Sat, 25 Feb 2023 15:16:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 18:59:13.306441
- Title: HADES: Homologous Automated Document Exploration and Summarization
- Title(参考訳): hades: 均質な自動ドキュメント探索と要約
- Authors: Piotr Wilczy\'nski, Artur \.Z\'o{\l}kowski, Mateusz Krzyzi\'nski,
Emilia Wi\'snios, Bartosz Pieli\'nski, Stanis{\l}aw Gizi\'nski, Julian
Sienkiewicz, Przemys{\l}aw Biecek
- Abstract要約: HADESは大量の文書を扱う専門家の仕事の合理化を目的としている。
このツールは、トピックモデリング、要約、トピック毎の最も重要な単語の解析を用いてPDF文書の処理から始まる多段階パイプラインを使用する。
- 参考スコア(独自算出の注目度): 3.3509104620016092
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces HADES, a novel tool for automatic comparative documents
with similar structures. HADES is designed to streamline the work of
professionals dealing with large volumes of documents, such as policy
documents, legal acts, and scientific papers. The tool employs a multi-step
pipeline that begins with processing PDF documents using topic modeling,
summarization, and analysis of the most important words for each topic. The
process concludes with an interactive web app with visualizations that
facilitate the comparison of the documents. HADES has the potential to
significantly improve the productivity of professionals dealing with high
volumes of documents, reducing the time and effort required to complete tasks
related to comparative document analysis. Our package is publically available
on GitHub.
- Abstract(参考訳): 本稿では,類似の構造を持つ文書の自動比較ツールhadesを紹介する。
HADESは、政策文書、法的行為、科学論文などの大量の文書を扱う専門家の仕事の合理化を目的としている。
このツールは、トピックモデリング、要約、トピック毎の最も重要な単語の解析を用いてPDF文書の処理から始まる多段階パイプラインを使用する。
このプロセスは、ドキュメントの比較を容易にする視覚化を備えたインタラクティブなWebアプリケーションで終わる。
HADESは、大量のドキュメントを扱う専門家の生産性を大幅に改善する可能性があり、比較文書分析に関連するタスクを完了するのに必要な時間と労力を削減できる。
私たちのパッケージはgithubで公開されています。
関連論文リスト
- Functional Analytics for Document Ordering for Curriculum Development
and Comprehension [0.0]
本稿では,カリキュラム開発のための自動文書注文生成手法と,学習,トレーニング,その他のコンテンツシーケンスアプリケーションに使用する最適な読解順序作成手法を提案する。
このようなテクニックは、理解力の向上、説明が必要な領域の特定、カリキュラムの生成、検索結果の改善に使用することができる。
論文 参考訳(メタデータ) (2023-11-22T02:13:27Z) - DocumentNet: Bridging the Data Gap in Document Pre-Training [78.01647768018485]
本稿では,Webから大規模かつ弱いラベル付きデータを収集し,VDERモデルの学習に役立てる手法を提案する。
収集されたデータセットはDocumentNetと呼ばれ、特定のドキュメントタイプやエンティティセットに依存しない。
広く採用されているVDERタスクの実験は、DocumentNetを事前トレーニングに組み込んだ場合、大幅に改善されている。
論文 参考訳(メタデータ) (2023-06-15T08:21:15Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [64.5769639710927]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - Layout-Aware Information Extraction for Document-Grounded Dialogue:
Dataset, Method and Demonstration [75.47708732473586]
視覚的にリッチな文書から構造的知識と意味的知識の両方を抽出するためのレイアウト対応文書レベル情報抽出データセット(LIE)を提案する。
LIEには製品および公式文書の4,061ページから3つの抽出タスクの62kアノテーションが含まれている。
実験の結果、レイアウトはVRDベースの抽出に不可欠であることが示され、システムデモでは、抽出された知識が、ユーザが関心を持っている答えを見つけるのに役立つことも確認されている。
論文 参考訳(メタデータ) (2022-07-14T07:59:45Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - Multi-Vector Models with Textual Guidance for Fine-Grained Scientific
Document Similarity [11.157086694203201]
本稿では, 微粒な面のマッチングに基づく新しい科学的文書類似性モデルを提案する。
本モデルは,テキスト管理の新たな形態として,関連論文の側面を記述した共引用文脈を用いて学習する。
論文 参考訳(メタデータ) (2021-11-16T11:12:30Z) - iFacetSum: Coreference-based Interactive Faceted Summarization for
Multi-Document Exploration [63.272359227081836]
iFacetSumは、インタラクティブな要約と顔検索を統合している。
微粒なファセットは、クロスドキュメントのコア参照パイプラインに基づいて自動的に生成される。
論文 参考訳(メタデータ) (2021-09-23T20:01:11Z) - The Law of Large Documents: Understanding the Structure of Legal
Contracts Using Visual Cues [0.7425558351422133]
コンピュータビジョン手法を用いて得られた視覚的手がかりが文書理解タスクの精度に与える影響を計測する。
構造メタデータに基づく文書のセグメンテーション手法は,4つの文書理解タスクにおいて,既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-07-16T21:21:50Z) - Automatic Document Sketching: Generating Drafts from Analogous Texts [44.626645471195495]
著者がレビューと修正を行うためのドラフト文書全体を生成する新しいタスクである文書スケッチを導入する。
これらのドラフトは、コンテンツのばらつきながら、形式的に重複するドキュメントのセット - 潜在的に再利用可能なテキストの大きなセグメントを共有する - から作成されます。
本研究は,変圧器を用いた専門家の混合と強化学習の併用を含む,弱教師付き手法の適用について検討する。
論文 参考訳(メタデータ) (2021-06-14T06:46:06Z) - Towards a Multi-modal, Multi-task Learning based Pre-training Framework
for Document Representation Learning [5.109216329453963]
本稿では,新しい事前学習タスクとして,文書トピックモデリングと文書シャッフル予測を導入する。
本稿では,Longformer ネットワークアーキテクチャをバックボーンとして,複数ページの文書からのマルチモーダル情報をエンド・ツー・エンドで符号化する。
論文 参考訳(メタデータ) (2020-09-30T05:39:04Z) - Explaining Relationships Between Scientific Documents [55.23390424044378]
本稿では,2つの学術文書間の関係を自然言語テキストを用いて記述する課題に対処する。
本稿では154K文書から622Kサンプルのデータセットを作成する。
論文 参考訳(メタデータ) (2020-02-02T03:54:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。