論文の概要: Summarising Historical Text in Modern Languages
- arxiv url: http://arxiv.org/abs/2101.10759v2
- Date: Wed, 27 Jan 2021 04:17:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-13 20:07:24.158381
- Title: Summarising Historical Text in Modern Languages
- Title(参考訳): 現代言語における歴史テキストの要約
- Authors: Xutan Peng, Yi Zheng, Chenghua Lin, Advaith Siddharthan
- Abstract要約: 本稿では,言語の歴史形式の文書を対応する現代語で要約する,歴史的テキスト要約の課題を紹介する。
これは、歴史家やデジタル人文科学研究者にとって基本的に重要なルーチンであるが、自動化されていない。
我々は、数百年前のドイツや中国の歴史的ニュースを現代ドイツ語や中国語で要約した高品質なゴールドスタンダードテキスト要約データセットをコンパイルする。
- 参考スコア(独自算出の注目度): 13.886432536330805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the task of historical text summarisation, where documents in
historical forms of a language are summarised in the corresponding modern
language. This is a fundamentally important routine to historians and digital
humanities researchers but has never been automated. We compile a high-quality
gold-standard text summarisation dataset, which consists of historical German
and Chinese news from hundreds of years ago summarised in modern German or
Chinese. Based on cross-lingual transfer learning techniques, we propose a
summarisation model that can be trained even with no cross-lingual (historical
to modern) parallel data, and further benchmark it against state-of-the-art
algorithms. We report automatic and human evaluations that distinguish the
historic to modern language summarisation task from standard cross-lingual
summarisation (i.e., modern to modern language), highlight the distinctness and
value of our dataset, and demonstrate that our transfer learning approach
outperforms standard cross-lingual benchmarks on this task.
- Abstract(参考訳): 本稿では,言語の歴史形式の文書を対応する現代語で要約する,歴史的テキスト要約の課題を紹介する。
これは、歴史家やデジタル人文科学研究者にとって基本的に重要なルーチンであるが、自動化されていない。
我々は、数百年前のドイツや中国の歴史的ニュースを現代ドイツ語や中国語で要約した高品質なゴールドスタンダードテキスト要約データセットをコンパイルする。
言語間移動学習技術に基づいて,言語間(歴史から現代まで)の並列データを用いなくても訓練可能な要約モデルを提案し,さらに最先端のアルゴリズムと比較した。
歴史的・現代的言語要約タスクと標準言語横断要約(現代語と近代言語)を区別する自動的・人的評価を報告し、我々のデータセットの識別性と価値を強調するとともに、このタスクにおける標準言語横断ベンチマークよりも転送学習アプローチの方が優れていることを示す。
関連論文リスト
- Contrastive Entity Coreference and Disambiguation for Historical Texts [2.446672595462589]
既存のエンティティの曖昧さの方法はしばしば、現代の知識ベースに記憶されていない個人を悩ませる歴史文書の正確さに欠ける。
本研究は,文献の文書間照合の解決と曖昧さの解消に3つの重要な貢献をしている。
論文 参考訳(メタデータ) (2024-06-21T18:22:14Z) - Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。
本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文 参考訳(メタデータ) (2024-04-09T11:39:53Z) - Transfer Learning across Several Centuries: Machine and Historian
Integrated Method to Decipher Royal Secretary's Diary [1.105375732595832]
歴史的テキストにおけるNERは、注釈付きコーパスの不足、多言語多様さ、様々なノイズ、現代の言語モデルとは全く異なる慣習といった課題に直面している。
本稿では,何世紀にもわたって記録された韓国の歴史的コーパス(SeungJeongWonと名づけられた王立書記官日記)を紹介する。
論文 参考訳(メタデータ) (2023-06-26T11:00:35Z) - Multilingual Event Extraction from Historical Newspaper Adverts [42.987470570997694]
本稿では,歴史文献の新たな領域からのイベント抽出の課題について述べる。
我々は,近代植民地時代の新聞広告からなる,英語,フランス語,オランダ語に新しい多言語データセットを導入する。
注記データが少ない場合でも,問題を抽出的QAタスクとして定式化することにより,驚くほど優れた結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-05-18T12:40:41Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - Deep Learning for Text Style Transfer: A Survey [71.8870854396927]
テキストスタイル転送は、生成したテキストの特定の属性を制御することを目的として、自然言語生成において重要なタスクである。
2017年の最初のニューラルテキストスタイル転送作業以降,100以上の代表的な記事を対象とした,ニューラルテキストスタイル転送の研究の体系的な調査を行う。
タスクの定式化、既存のデータセットとサブタスク、評価、並列データと非並列データの存在下での豊富な方法論について論じる。
論文 参考訳(メタデータ) (2020-11-01T04:04:43Z) - WikiLingua: A New Benchmark Dataset for Cross-Lingual Abstractive
Summarization [41.578594261746055]
ウィキリンガ(WikiLingua)は,言語間抽象要約システムの評価のための大規模多言語データセットである。
ウィキハウ(WikiHow)は,人文者によって書かれた多種多様なトピックに関するハウツーガイドの高品質で協調的な資料である。
我々は、各記事のハウツーステップを記述するために使用されるイメージをアライメントすることで、言語間でのゴールドスタンダードな記事要約アライメントを作成する。
論文 参考訳(メタデータ) (2020-10-07T00:28:05Z) - Russian Natural Language Generation: Creation of a Language Modelling
Dataset and Evaluation with Modern Neural Architectures [0.0]
ロシア語モデリングのための新しい参照データセットを提供する。
我々は、テキスト生成、すなわち変分オートエンコーダ、および生成的敵ネットワークのための一般的なモダンな手法を実験した。
我々は, 難易度, 文法的正しさ, 語彙的多様性などの指標について, 生成したテキストを評価する。
論文 参考訳(メタデータ) (2020-05-05T20:20:25Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z) - Exploring the Limits of Transfer Learning with a Unified Text-to-Text
Transformer [64.22926988297685]
下流タスクで微調整される前に、まずデータリッチタスクでモデルが事前訓練されるトランスファーラーニングは、自然言語処理(NLP)において強力な手法として登場した。
本稿では,すべてのテキストベースの言語問題をテキスト・トゥ・テキスト・フォーマットに変換する統一フレームワークにより,NLPのためのトランスファー学習手法を導入する状況について検討する。
論文 参考訳(メタデータ) (2019-10-23T17:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。