論文の概要: Understanding Archives: Towards New Research Interfaces Relying on the Semantic Annotation of Documents
- arxiv url: http://arxiv.org/abs/2403.19201v1
- Date: Thu, 28 Mar 2024 07:55:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 17:03:08.545239
- Title: Understanding Archives: Towards New Research Interfaces Relying on the Semantic Annotation of Documents
- Title(参考訳): アーカイブの理解:文書の意味的アノテーションに基づく新しい研究インターフェースを目指して
- Authors: Nicolas Gutehrlé, Iana Atanassova,
- Abstract要約: 本稿では,研究資料のコーパスのテキスト内容の意味的アノテーションが,その活用と評価を促進する方法を示す。
まず,テキスト・セマンティクスに基づく新しいインタフェース構築のための方法論的枠組みを提案する。
- 参考スコア(独自算出の注目度): 0.2302001830524133
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The digitisation campaigns carried out by libraries and archives in recent years have facilitated access to documents in their collections. However, exploring and exploiting these documents remain difficult tasks due to the sheer quantity of documents available for consultation. In this article, we show how the semantic annotation of the textual content of study corpora of archival documents allow to facilitate their exploitation and valorisation. First, we present a methodological framework for the construction of new interfaces based on textual semantics, then address the current technological obstacles and their potential solutions. We conclude by presenting a practical case of the application of this framework.
- Abstract(参考訳): 近年の図書館や文書館によるデジタル化キャンペーンは、蔵書の文書へのアクセスを促進している。
しかし、これらの文書の発掘・活用は、相談用資料が多すぎるため、依然として困難な作業である。
本稿では,古文書のコーパスのテクスト内容のセマンティックアノテーションが,その活用と評価を容易にする方法を示す。
まず,テキストのセマンティクスに基づく新しいインタフェース構築のための方法論的枠組みを提案し,その上で,現在の技術的障害とその潜在的な解決策に対処する。
我々は、このフレームワークの適用の実践事例を提示することで結論付ける。
関連論文リスト
- DLUE: Benchmarking Document Language Understanding [32.550855843975484]
文書理解能力を包括的に評価する方法については、確固たるコンセンサスはない。
本稿では,文書分類,文書構造解析,文書情報抽出,文書書き起こしの4つの代表的能力について要約する。
新しい評価フレームワークでは、新しいタスクスイートである textbfDLUE の textbfDocument Language Understanding Evaluation を提案する。
論文 参考訳(メタデータ) (2023-05-16T15:16:24Z) - SIMARA: a database for key-value information extraction from full pages [0.1835211348413763]
歴史的手書き文書から情報を取り出すための新しいデータベースを提案する。
コーパスには18世紀から20世紀にかけての6つのシリーズから5,393個のエイズが発見されている。
ヘルプを見つけることは、古いアーカイブを記述するメタデータを含む手書きの文書である。
論文 参考訳(メタデータ) (2023-04-26T15:00:04Z) - Archive TimeLine Summarization (ATLS): Conceptual Framework for Timeline
Generation over Historical Document Collections [17.332692582748408]
本稿では,アーカイブコレクション上でのTimeLine Summarization(TLS)手法を拡張して研究を支援することを提案する。
本稿では,情報的,可読的,解釈可能なタイムラインを生成することを目的とした,アーカイブタイムライン要約(ATLS)システムの概念的フレームワークについて述べる。
論文 参考訳(メタデータ) (2023-01-31T08:58:47Z) - Layout-Aware Information Extraction for Document-Grounded Dialogue:
Dataset, Method and Demonstration [75.47708732473586]
視覚的にリッチな文書から構造的知識と意味的知識の両方を抽出するためのレイアウト対応文書レベル情報抽出データセット(LIE)を提案する。
LIEには製品および公式文書の4,061ページから3つの抽出タスクの62kアノテーションが含まれている。
実験の結果、レイアウトはVRDベースの抽出に不可欠であることが示され、システムデモでは、抽出された知識が、ユーザが関心を持っている答えを見つけるのに役立つことも確認されている。
論文 参考訳(メタデータ) (2022-07-14T07:59:45Z) - Embedding Knowledge for Document Summarization: A Survey [66.76415502727802]
従来の研究は、知識を組み込んだ文書要約器が優れた消化器を生成するのに優れていたことを証明した。
本稿では,文書要約ビューに基づいて,知識と知識の埋め込みを再カプセル化する手法を提案する。
論文 参考訳(メタデータ) (2022-04-24T04:36:07Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - The Law of Large Documents: Understanding the Structure of Legal
Contracts Using Visual Cues [0.7425558351422133]
コンピュータビジョン手法を用いて得られた視覚的手がかりが文書理解タスクの精度に与える影響を計測する。
構造メタデータに基づく文書のセグメンテーション手法は,4つの文書理解タスクにおいて,既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-07-16T21:21:50Z) - A Survey of Deep Learning Approaches for OCR and Document Understanding [68.65995739708525]
我々は、英語で書かれた文書の文書理解のための様々な手法をレビューする。
文献に現れる方法論を集約し,この領域を探索する研究者の跳躍点として機能させる。
論文 参考訳(メタデータ) (2020-11-27T03:05:59Z) - Multilevel Text Alignment with Cross-Document Attention [59.76351805607481]
既存のアライメントメソッドは、1つの事前定義されたレベルで動作します。
本稿では,文書を文書間注目要素で表現するための階層的アテンションエンコーダを予め確立した新しい学習手法を提案する。
論文 参考訳(メタデータ) (2020-10-03T02:52:28Z) - Explaining Relationships Between Scientific Documents [55.23390424044378]
本稿では,2つの学術文書間の関係を自然言語テキストを用いて記述する課題に対処する。
本稿では154K文書から622Kサンプルのデータセットを作成する。
論文 参考訳(メタデータ) (2020-02-02T03:54:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。