論文の概要: Yes but.. Can ChatGPT Identify Entities in Historical Documents?
- arxiv url: http://arxiv.org/abs/2303.17322v1
- Date: Thu, 30 Mar 2023 12:23:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 13:41:03.130127
- Title: Yes but.. Can ChatGPT Identify Entities in Historical Documents?
- Title(参考訳): はい、でも。
.
ChatGPTは歴史的文書の実体を識別できるか?
- Authors: Carlos-Emiliano Gonz\'alez-Gallardo and Emanuela Boros and Nancy
Girdhar and Ahmed Hamdi and Jose G. Moreno and Antoine Doucet
- Abstract要約: 大規模言語モデル(LLM)は数年前から利用されており、現代文書から実体を認識する上で最先端のパフォーマンスが得られている。
ChatGPTは、科学的コミュニティや一般大衆に多くの関心を喚起している。
- 参考スコア(独自算出の注目度): 8.591605318423321
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) have been leveraged for several years now,
obtaining state-of-the-art performance in recognizing entities from modern
documents. For the last few months, the conversational agent ChatGPT has
"prompted" a lot of interest in the scientific community and public due to its
capacity of generating plausible-sounding answers. In this paper, we explore
this ability by probing it in the named entity recognition and classification
(NERC) task in primary sources (e.g., historical newspapers and classical
commentaries) in a zero-shot manner and by comparing it with state-of-the-art
LM-based systems. Our findings indicate several shortcomings in identifying
entities in historical text that range from the consistency of entity
annotation guidelines, entity complexity, and code-switching, to the
specificity of prompting. Moreover, as expected, the inaccessibility of
historical archives to the public (and thus on the Internet) also impacts its
performance.
- Abstract(参考訳): 大規模言語モデル(LLM)は数年前から利用されており、現代文書からエンティティを認識する際に最先端のパフォーマンスが得られる。
ここ数ヶ月、会話エージェントのchatgptは、有望な答えを生み出す能力があるため、科学界や大衆に多くの関心を寄せてきた。
本稿では,原資料(例えば,歴史新聞や古典的注釈書)のエンティティ認識・分類(NERC)タスクをゼロショットで探索し,最先端のLMベースシステムと比較することによって,この能力を探求する。
以上の結果から,エンティティアノテーションガイドラインの一貫性,エンティティの複雑さ,コードスイッチング,プロンプトの特異性など,歴史的なテキスト中のエンティティ識別におけるいくつかの欠点が示された。
さらに、予想通り、歴史的アーカイブが一般に(そしてインターネット上で)アクセスできないことも、そのパフォーマンスに影響を与えている。
関連論文リスト
- Hypergraph based Understanding for Document Semantic Entity Recognition [65.84258776834524]
我々は,ハイパグラフアテンションを利用したハイパグラフアテンション文書セマンティックエンティティ認識フレームワークHGAを構築し,エンティティ境界とエンティティカテゴリを同時に重視する。
FUNSD, CORD, XFUNDIE で得られた結果は,本手法が意味的エンティティ認識タスクの性能を効果的に向上できることを示す。
論文 参考訳(メタデータ) (2024-07-09T14:35:49Z) - Contrastive Entity Coreference and Disambiguation for Historical Texts [2.446672595462589]
既存のエンティティの曖昧さの方法はしばしば、現代の知識ベースに記憶されていない個人を悩ませる歴史文書の正確さに欠ける。
本研究は,文献の文書間照合の解決と曖昧さの解消に3つの重要な貢献をしている。
論文 参考訳(メタデータ) (2024-06-21T18:22:14Z) - Fetch-A-Set: A Large-Scale OCR-Free Benchmark for Historical Document Retrieval [2.7471068141502]
このベンチマークには、紀元前2世紀にさかのぼる膨大な文書が収められている。
文化遺産の領域における複雑な抽出作業に焦点をあてることで、文学における重要なギャップを埋める。
論文 参考訳(メタデータ) (2024-06-11T14:45:00Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - Entity Disambiguation with Entity Definitions [50.01142092276296]
ローカルモデルはEntity Disambiguation (ED)で最近驚くべきパフォーマンスを達成した
それまでの研究は、各候補者のテキスト表現として、ウィキペディアのタイトルのみを使うことに限られていた。
本稿では、この制限に対処し、より表現力のあるテキスト表現がそれを緩和できる範囲について検討する。
提案する6つのベンチマークのうち2つに新たな技術の現状を報告し,未知のパターンに対する一般化能力を強く改善する。
論文 参考訳(メタデータ) (2022-10-11T17:46:28Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z) - The Fellowship of the Authors: Disambiguating Names from Social Network
Context [2.3605348648054454]
各エンティティに関する広範なテキスト記述を持つオーソリティリストは、欠落しており、曖昧な名前のエンティティである。
BERTをベースとした参照表現と,さまざまなグラフ誘導戦略を組み合わせて,教師付きクラスタ推論手法と教師なしクラスタ推論手法を実験する。
ドメイン内言語モデルの事前学習は,特により大きなコーパスに対して,参照表現を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2022-08-31T21:51:55Z) - Entity Cloze By Date: What LMs Know About Unseen Entities [79.34707800653597]
言語モデル(LM)は通常、大規模なコーパスで一度訓練され、更新されずに数年間使用される。
本研究では,LMの事前学習時に存在しなかった新しいエンティティについて,LMがどのような推論ができるのかを解析する枠組みを提案する。
本論文は,その発祥日によって索引付けされたエンティティのデータセットを,英語のウィキペディア記事と組み合わせて作成し,各エンティティに関する文章を検索する。
論文 参考訳(メタデータ) (2022-05-05T17:59:31Z) - Knowledge-Rich Self-Supervised Entity Linking [58.838404666183656]
Knowledge-RIch Self-Supervision(KRISSBERT$)は400万のUMLSエンティティのためのユニバーサルエンティティリンカーである。
提案手法はゼロショット法と少数ショット法を仮定し,利用可能であればエンティティ記述やゴールドレファレンスラベルを簡単に組み込むことができる。
ラベル付き情報を一切使わずに400万のUMLSエンティティのためのユニバーサルエンティティリンカである$tt KRISSBERT$を生成する。
論文 参考訳(メタデータ) (2021-12-15T05:05:12Z) - Named Entity Recognition and Classification on Historical Documents: A
Survey [0.9039665244779184]
本稿では、歴史的文書から生じる課題を、名前付きエンティティ認識システムに提示する。
これまでにデプロイされた主要なアプローチについて説明し、将来の開発において重要な優先順位を特定します。
論文 参考訳(メタデータ) (2021-09-23T14:37:40Z) - Combining Visual and Textual Features for Semantic Segmentation of
Historical Newspapers [2.5899040911480187]
本稿では,歴史新聞のセマンティックセマンティックセグメンテーションのためのマルチモーダルアプローチを提案する。
ダイアクロニックなスイスとルクセンブルクの新聞の実験に基づいて、視覚的特徴とテキスト的特徴の予測力について検討する。
その結果、強力な視覚ベースラインと比較して、マルチモーダルモデルの一貫した改善が見られた。
論文 参考訳(メタデータ) (2020-02-14T17:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。