論文の概要: Named Entity Recognition and Classification on Historical Documents: A
Survey
- arxiv url: http://arxiv.org/abs/2109.11406v1
- Date: Thu, 23 Sep 2021 14:37:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-24 17:22:33.993101
- Title: Named Entity Recognition and Classification on Historical Documents: A
Survey
- Title(参考訳): 名前付き実体認識と歴史的文書の分類:調査
- Authors: Maud Ehrmann, Ahmed Hamdi, Elvys Linhares Pontes, Matteo Romanello,
Antoine Doucet
- Abstract要約: 本稿では、歴史的文書から生じる課題を、名前付きエンティティ認識システムに提示する。
これまでにデプロイされた主要なアプローチについて説明し、将来の開発において重要な優先順位を特定します。
- 参考スコア(独自算出の注目度): 0.9039665244779184
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: After decades of massive digitisation, an unprecedented amount of historical
documents is available in digital format, along with their machine-readable
texts. While this represents a major step forward with respect to preservation
and accessibility, it also opens up new opportunities in terms of content
mining and the next fundamental challenge is to develop appropriate
technologies to efficiently search, retrieve and explore information from this
'big data of the past'. Among semantic indexing opportunities, the recognition
and classification of named entities are in great demand among humanities
scholars. Yet, named entity recognition (NER) systems are heavily challenged
with diverse, historical and noisy inputs. In this survey, we present the array
of challenges posed by historical documents to NER, inventory existing
resources, describe the main approaches deployed so far, and identify key
priorities for future developments.
- Abstract(参考訳): 数十年にわたる膨大なデジタル化の後、前例のない量の歴史的文書が、機械で読めるテキストとともにデジタルフォーマットで入手できる。
これは、保存性やアクセシビリティに関する大きな進歩であると同時に、コンテンツマイニングの面での新しい機会も開き、次の根本的な課題は、この「過去の大きなデータ」から情報を効率的に検索、検索、探索するための適切な技術を開発することである。
セマンティックな索引付けの機会の中で、名前付きエンティティの認識と分類は人文科学研究者の間で大きな需要がある。
しかし、名前付きエンティティ認識(ner)システムは、多様で歴史的、ノイズの多い入力に強く挑戦されている。
本稿では,過去の資料から生じる課題を整理し,既存の資源をインベントリし,これまで展開してきた主要なアプローチを説明し,今後の開発において重要な課題を特定する。
関連論文リスト
- A Survey of Generative Information Retrieval [25.1249210843116]
Generative Retrieval (GR) は、情報検索における新たなパラダイムであり、従来のクエリ処理やドキュメントの再ランクを必要とせずに、生成モデルを利用してクエリを関連するドキュメント識別子(DocID)にマップする。
この調査はGRの総合的な概要を提供し、主要な開発、索引付けと検索戦略、課題を強調している。
論文 参考訳(メタデータ) (2024-06-03T10:59:33Z) - A Survey of Generative Search and Recommendation in the Era of Large Language Models [125.26354486027408]
ジェネレーティブ検索(検索)とレコメンデーションは、マッチング問題をジェネレーティブな方法で解決することを目的としている。
超知能生成型大規模言語モデルが検索と推薦の新しいパラダイムを生み出した。
論文 参考訳(メタデータ) (2024-04-25T17:58:17Z) - Deepfake Generation and Detection: A Benchmark and Survey [134.19054491600832]
Deepfakeは、特定の条件下で非常にリアルな顔画像やビデオを作成するための技術だ。
この調査は、ディープフェイクの発生と検出の最新の展開を包括的にレビューする。
本研究では, 顔交換, 顔再現, 話し顔生成, 顔属性編集の4つの代表的なディープフェイク分野の研究に焦点をあてる。
論文 参考訳(メタデータ) (2024-03-26T17:12:34Z) - Capture the Flag: Uncovering Data Insights with Large Language Models [90.47038584812925]
本研究では,Large Language Models (LLMs) を用いてデータの洞察の発見を自動化する可能性について検討する。
そこで本稿では,データセット内の意味的かつ関連する情報(フラグ)を識別する能力を測定するために,フラグを捕捉する原理に基づく新しい評価手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T14:20:06Z) - Yes but.. Can ChatGPT Identify Entities in Historical Documents? [8.591605318423321]
大規模言語モデル(LLM)は数年前から利用されており、現代文書から実体を認識する上で最先端のパフォーマンスが得られている。
ChatGPTは、科学的コミュニティや一般大衆に多くの関心を喚起している。
論文 参考訳(メタデータ) (2023-03-30T12:23:39Z) - Embedding Knowledge for Document Summarization: A Survey [66.76415502727802]
従来の研究は、知識を組み込んだ文書要約器が優れた消化器を生成するのに優れていたことを証明した。
本稿では,文書要約ビューに基づいて,知識と知識の埋め込みを再カプセル化する手法を提案する。
論文 参考訳(メタデータ) (2022-04-24T04:36:07Z) - Algorithmic Fairness Datasets: the Story so Far [68.45921483094705]
データ駆動アルゴリズムは、人々の幸福に直接影響し、批判的な決定をサポートするために、さまざまな領域で研究されている。
研究者のコミュニティは、既存のアルゴリズムの株式を調査し、新しいアルゴリズムを提案し、歴史的に不利な人口に対する自動意思決定のリスクと機会の理解を深めてきた。
公正な機械学習の進歩はデータに基づいており、適切に文書化された場合にのみ適切に使用できる。
残念なことに、アルゴリズムフェアネスコミュニティは、特定のリソース(オパシティ)に関する情報の不足と利用可能な情報の分散(スパーシティ)によって引き起こされる、集合的なデータドキュメント負債に悩まされている。
論文 参考訳(メタデータ) (2022-02-03T17:25:46Z) - Survey on the Analysis and Modeling of Visual Kinship: A Decade in the
Making [66.72253432908693]
親和性認識は多くの実践的応用において難しい問題である。
我々は、多くの人にその見解を刺激した公開リソースとデータ課題についてレビューする。
10周年記念には、さまざまなkinベースのタスクのためのデモコードが用意されている。
論文 参考訳(メタデータ) (2020-06-29T13:25:45Z) - Ontologies in CLARIAH: Towards Interoperability in History, Language and
Media [0.05277024349608833]
デジタル人文科学の最も重要な目標の1つは、研究者に新しい研究質問のためのデータとツールを提供することである。
FAIRの原則は、データが必要な状態として、これらのフレームワークを提供する。 Findable は、さまざまなソースに散らばっているため、しばしば参照可能 アクセス可能 いくつかはオフラインやペイウォールの後方にあるかもしれない 相互運用可能 標準的な知識表現フォーマットを使用して、共有される。
オランダの国立プロジェクト CLARIAH に開発・統合されたツールについて述べる。
論文 参考訳(メタデータ) (2020-04-06T17:38:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。