論文の概要: HistRED: A Historical Document-Level Relation Extraction Dataset
- arxiv url: http://arxiv.org/abs/2307.04285v1
- Date: Mon, 10 Jul 2023 00:24:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 14:29:47.375481
- Title: HistRED: A Historical Document-Level Relation Extraction Dataset
- Title(参考訳): HistRED: 歴史的文書レベル関係抽出データセット
- Authors: Soyoung Yang, Minseok Choi, Youngwoo Cho, Jaegul Choo
- Abstract要約: HistREDは、漢漢の古文書集「Yeonhaengnok」から造られたものである。
HistREDは、韓国語と漢語でREを実行できるようなバイリンガルアノテーションを提供している。
本稿では,韓国語と漢語の両方の文脈を利用してエンティティ間の関係を予測するバイリンガルREモデルを提案する。
- 参考スコア(独自算出の注目度): 32.96963890713529
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Despite the extensive applications of relation extraction (RE) tasks in
various domains, little has been explored in the historical context, which
contains promising data across hundreds and thousands of years. To promote the
historical RE research, we present HistRED constructed from Yeonhaengnok.
Yeonhaengnok is a collection of records originally written in Hanja, the
classical Chinese writing, which has later been translated into Korean. HistRED
provides bilingual annotations such that RE can be performed on Korean and
Hanja texts. In addition, HistRED supports various self-contained subtexts with
different lengths, from a sentence level to a document level, supporting
diverse context settings for researchers to evaluate the robustness of their RE
models. To demonstrate the usefulness of our dataset, we propose a bilingual RE
model that leverages both Korean and Hanja contexts to predict relations
between entities. Our model outperforms monolingual baselines on HistRED,
showing that employing multiple language contexts supplements the RE
predictions. The dataset is publicly available at:
https://huggingface.co/datasets/Soyoung/HistRED under CC BY-NC-ND 4.0 license.
- Abstract(参考訳): 様々な領域における関係抽出(RE)タスクの広範な適用にもかかわらず、数百年から数千年にわたる有望なデータを含む歴史的文脈では、ほとんど研究されていない。
歴史的RE研究を促進するため,Yeonhaengnokから構築されたHistREDについて紹介する。
ヨンハエンノク(yyonhaengnok)は、漢語で書かれた記録集で、後に韓国語に翻訳された。
HistREDは、韓国語と漢語でREを実行できるようなバイリンガルアノテーションを提供している。
さらに、HistREDは文章レベルから文書レベルまで様々な長さの自己完結サブテキストをサポートし、研究者がREモデルの堅牢性を評価するための多様なコンテキスト設定をサポートする。
データセットの有用性を示すために,韓国語と漢語の両方の文脈を利用してエンティティ間の関係を予測するバイリンガルREモデルを提案する。
我々のモデルはHistREDの単言語ベースラインよりも優れており、複数の言語コンテキストを利用することでRE予測を補完することを示す。
データセットは https://huggingface.co/datasets/Soyoung/HistRED under CC BY-NC-ND 4.0 License で公開されている。
関連論文リスト
- When Does Classical Chinese Help? Quantifying Cross-Lingual Transfer in Hanja and Kanbun [48.07219104902607]
古典中国語から漢語・漢文への言語間移動可能性の仮定を疑問視する。
実験の結果,漢文で書かれた古代朝鮮語文書の言語モデル性能に対する古典中国語データセットの影響は最小限であった。
論文 参考訳(メタデータ) (2024-11-07T15:59:54Z) - Multilingual Coreference Resolution in Low-resource South Asian Languages [36.31301773167754]
韓国語31言語に翻訳データセット(TransMuCoRes)を導入する。
予測された翻訳のほぼ全てが正当性検査に合格し、英語の参照の75%は予測された翻訳と一致している。
本研究は,ヒンディー語黄金集合上でのエンド・ツー・エンドのコア参照分解モデルを評価する最初のものである。
論文 参考訳(メタデータ) (2024-02-21T07:05:51Z) - Transfer Learning across Several Centuries: Machine and Historian
Integrated Method to Decipher Royal Secretary's Diary [1.105375732595832]
歴史的テキストにおけるNERは、注釈付きコーパスの不足、多言語多様さ、様々なノイズ、現代の言語モデルとは全く異なる慣習といった課題に直面している。
本稿では,何世紀にもわたって記録された韓国の歴史的コーパス(SeungJeongWonと名づけられた王立書記官日記)を紹介する。
論文 参考訳(メタデータ) (2023-06-26T11:00:35Z) - Simple Yet Effective Neural Ranking and Reranking Baselines for
Cross-Lingual Information Retrieval [50.882816288076725]
言語間情報検索は、ある言語で文書を検索し、別の言語でクエリーを検索するタスクである。
本研究では,多段階アーキテクチャを用いた言語横断検索のための異なるアプローチを体系化するための概念的枠組みを提案する。
我々は、ペルシア、ロシア、中国のTREC 2022 NeuCLIRトラックから収集したテストコレクションに対して、Anserini IRツールキットとPyserini IRツールキットに単純かつ効果的に再現可能なベースラインを実装した。
論文 参考訳(メタデータ) (2023-04-03T14:17:00Z) - HUE: Pretrained Model and Dataset for Understanding Hanja Documents of
Ancient Korea [59.35609710776603]
我々は、時系列属性、トピック分類、名前付きエンティティ認識、要約検索タスクからなるハンハ理解評価データセットをリリースする。
また、本研究では、14世紀から19世紀にかけての2つの主要なコーパスについて、ヨセオン王朝のアンナスと王立事務局の日記のトレーニングを継続したBERTベースのモデルについても紹介する。
論文 参考訳(メタデータ) (2022-10-11T03:04:28Z) - Assessing Neural Referential Form Selectors on a Realistic Multilingual
Dataset [6.651864489482537]
OntoNotesコーパスに基づくデータセットを構築し、英語と中国語の両方で広く使われている参照表現(RE)を含む。
そこで我々は、RFS(Neural Referential Form Selection)モデルを構築し、それらをデータセット上で評価し、探索実験を行う。
論文 参考訳(メタデータ) (2022-10-10T16:42:25Z) - FRMT: A Benchmark for Few-Shot Region-Aware Machine Translation [64.9546787488337]
本稿では、Few-shot Region-aware Machine Translationのための新しいデータセットと評価ベンチマークFRMTを提案する。
このデータセットは、英語からポルトガル語と中国語の2つの地域変種へのプロの翻訳で構成されている。
論文 参考訳(メタデータ) (2022-10-01T05:02:04Z) - DiS-ReX: A Multilingual Dataset for Distantly Supervised Relation
Extraction [15.649929244635269]
これらの問題を緩和する新しいデータセットであるDiS-ReXを提案する。
私たちのデータセットには150万以上の文があり、36の関連クラスを持つ4つの言語にまたがっている。
また,mBERTを用いて文を符号化し,多言語DS-REのベンチマーク結果を提供する。
論文 参考訳(メタデータ) (2021-04-17T22:44:38Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。