論文の概要: Timestamping Documents and Beliefs
- arxiv url: http://arxiv.org/abs/2106.14622v1
- Date: Wed, 9 Jun 2021 02:12:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-04 19:37:48.351183
- Title: Timestamping Documents and Beliefs
- Title(参考訳): タイムスタンピング資料と信条
- Authors: Swayambhu Nath Ray
- Abstract要約: 文書デートは、文書の時間構造に関する推論を必要とする難しい問題である。
本稿では,グラフ畳み込みネットワーク(GCN)に基づく文書年代測定手法であるNeuralDaterを提案する。
また,注意に基づく文書デートシステムであるAD3: Attentive Deep Document Daterを提案する。
- 参考スコア(独自算出の注目度): 1.4467794332678539
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Most of the textual information available to us are temporally variable. In a
world where information is dynamic, time-stamping them is a very important
task. Documents are a good source of information and are used for many tasks
like, sentiment analysis, classification of reviews etc. The knowledge of
creation date of documents facilitates several tasks like summarization, event
extraction, temporally focused information extraction etc. Unfortunately, for
most of the documents on the web, the time-stamp meta-data is either erroneous
or missing. Thus document dating is a challenging problem which requires
inference over the temporal structure of the document alongside the contextual
information of the document. Prior document dating systems have largely relied
on handcrafted features while ignoring such document-internal structures. In
this paper we propose NeuralDater, a Graph Convolutional Network (GCN) based
document dating approach which jointly exploits syntactic and temporal graph
structures of document in a principled way. We also pointed out some
limitations of NeuralDater and tried to utilize both context and temporal
information in documents in a more flexible and intuitive manner proposing AD3:
Attentive Deep Document Dater, an attention-based document dating system. To
the best of our knowledge these are the first application of deep learning
methods for the task. Through extensive experiments on real-world datasets, we
find that our models significantly outperforms state-of-the-art baselines by a
significant margin.
- Abstract(参考訳): 利用可能なテキスト情報のほとんどは、時間的に変動します。
情報が動的である世界では、それらをタイムスタンプするのは非常に重要なタスクです。
ドキュメントは優れた情報ソースであり、感情分析、レビューの分類など、多くのタスクで使用されています。
文書作成の知識は要約,イベント抽出,時間集中情報抽出など,いくつかのタスクを補助する。
残念ながら、web上のほとんどのドキュメントでは、タイムスタンプのメタデータが誤っているか欠落している。
このように、文書デートは、文書の文脈情報と並行して文書の時間構造に関する推論を必要とする困難な問題である。
以前の文書年代測定システムは、文書内部構造を無視しながら、主に手作りの特徴に依存している。
本稿では,グラフ畳み込みネットワーク(GCN)に基づく文書年代推定手法であるNeuralDaterを提案する。
我々はまた、NeuralDaterのいくつかの制限を指摘し、AD3を提唱するより柔軟で直感的な方法で文書の文脈情報と時間情報の両方を活用しようとした。
私たちの知る限りでは、これらはタスクに対するディープラーニングメソッドの最初の応用です。
実世界のデータセットに関する広範な実験により、我々のモデルは最先端のベースラインを著しく上回っていることがわかった。
関連論文リスト
- Unified Multi-Modal Interleaved Document Representation for Information Retrieval [57.65409208879344]
我々は、異なるモダリティでインターリーブされた文書を均等に埋め込み、より包括的でニュアンスのある文書表現を生成する。
具体的には、テキスト、画像、テーブルの処理と統合を統一されたフォーマットと表現に統合する、近年のビジョン言語モデルの能力を活用して、これを実現する。
論文 参考訳(メタデータ) (2024-10-03T17:49:09Z) - Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z) - DocumentNet: Bridging the Data Gap in Document Pre-Training [78.01647768018485]
本稿では,Webから大規模かつ弱いラベル付きデータを収集し,VDERモデルの学習に役立てる手法を提案する。
収集されたデータセットはDocumentNetと呼ばれ、特定のドキュメントタイプやエンティティセットに依存しない。
広く採用されているVDERタスクの実験は、DocumentNetを事前トレーニングに組み込んだ場合、大幅に改善されている。
論文 参考訳(メタデータ) (2023-06-15T08:21:15Z) - DLUE: Benchmarking Document Language Understanding [32.550855843975484]
文書理解能力を包括的に評価する方法については、確固たるコンセンサスはない。
本稿では,文書分類,文書構造解析,文書情報抽出,文書書き起こしの4つの代表的能力について要約する。
新しい評価フレームワークでは、新しいタスクスイートである textbfDLUE の textbfDocument Language Understanding Evaluation を提案する。
論文 参考訳(メタデータ) (2023-05-16T15:16:24Z) - Cross-Modal Entity Matching for Visually Rich Documents [4.8119678510491815]
視覚的にリッチなドキュメントは、視覚的な手がかりを使ってセマンティクスを強化します。
これらのドキュメントの構造化クエリを可能にする既存の作業は、これを考慮に入れない。
この制限に対処するクロスモーダルなエンティティマッチングフレームワークであるJunoを提案する。
論文 参考訳(メタデータ) (2023-03-01T18:26:14Z) - Layout-Aware Information Extraction for Document-Grounded Dialogue:
Dataset, Method and Demonstration [75.47708732473586]
視覚的にリッチな文書から構造的知識と意味的知識の両方を抽出するためのレイアウト対応文書レベル情報抽出データセット(LIE)を提案する。
LIEには製品および公式文書の4,061ページから3つの抽出タスクの62kアノテーションが含まれている。
実験の結果、レイアウトはVRDベースの抽出に不可欠であることが示され、システムデモでは、抽出された知識が、ユーザが関心を持っている答えを見つけるのに役立つことも確認されている。
論文 参考訳(メタデータ) (2022-07-14T07:59:45Z) - The Law of Large Documents: Understanding the Structure of Legal
Contracts Using Visual Cues [0.7425558351422133]
コンピュータビジョン手法を用いて得られた視覚的手がかりが文書理解タスクの精度に与える影響を計測する。
構造メタデータに基づく文書のセグメンテーション手法は,4つの文書理解タスクにおいて,既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-07-16T21:21:50Z) - SciREX: A Challenge Dataset for Document-Level Information Extraction [56.83748634747753]
ドキュメントレベルで大規模な情報抽出データセットを作成するのは難しい。
複数のIEタスクを含む文書レベルのIEデータセットであるSciREXを紹介する。
我々は、従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとして、ニューラルモデルを開発する。
論文 参考訳(メタデータ) (2020-05-01T17:30:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。