論文の概要: CCPM: A Chinese Classical Poetry Matching Dataset
- arxiv url: http://arxiv.org/abs/2106.01979v1
- Date: Thu, 3 Jun 2021 16:49:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-04 16:13:43.442760
- Title: CCPM: A Chinese Classical Poetry Matching Dataset
- Title(参考訳): CCPM:中国の古典詩のマッチングデータセット
- Authors: Wenhao Li, Fanchao Qi, Maosong Sun, Xiaoyuan Yi, Jiarui Zhang
- Abstract要約: 本稿では,詩のマッチングによるモデルの意味的理解を評価するための新しい課題を提案する。
この課題は、現代漢訳の漢詩では、4人の候補者の中から1行の漢詩を選ばなければならない。
このデータセットを構築するために、まず中国古典詩と現代中国語の翻訳の並列データを得る。
- 参考スコア(独自算出の注目度): 50.90794811956129
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Poetry is one of the most important art forms of human languages. Recently
many studies have focused on incorporating some linguistic features of poetry,
such as style and sentiment, into its understanding or generation system.
However, there is no focus on understanding or evaluating the semantics of
poetry. Therefore, we propose a novel task to assess a model's semantic
understanding of poetry by poem matching. Specifically, this task requires the
model to select one line of Chinese classical poetry among four candidates
according to the modern Chinese translation of a line of poetry. To construct
this dataset, we first obtain a set of parallel data of Chinese classical
poetry and modern Chinese translation. Then we retrieve similar lines of poetry
with the lines in a poetry corpus as negative choices. We name the dataset
Chinese Classical Poetry Matching Dataset (CCPM) and release it at
https://github.com/THUNLP-AIPoet/CCPM. We hope this dataset can further enhance
the study on incorporating deep semantics into the understanding and generation
system of Chinese classical poetry. We also preliminarily run two variants of
BERT on this dataset as the baselines for this dataset.
- Abstract(参考訳): 詩は人間の言語の最も重要な芸術形式の一つである。
近年、多くの研究は詩のスタイルや感情といった言語的特徴をその理解や生成システムに取り入れることに焦点を当てている。
しかし、詩の意味の理解や評価には焦点が当てられていない。
そこで本研究では,詩のマッチングによるモデルの意味的理解を評価する新しい課題を提案する。
具体的には、漢詩の一行を現代漢訳した4人の候補者の中から1行の漢詩を選ぶ必要がある。
このデータセットを構築するために、まず中国古典詩と現代中国語の翻訳の並列データを得る。
そして,詩コーパスの行を否定的な選択として,類似した詩行を検索する。
Chinese Classical Poetry Matching Dataset (CCPM) と命名し、https://github.com/THUNLP-AIPoet/CCPMでリリースします。
このデータセットが、中国の古典詩の理解と生成システムに深い意味を組み込む研究をさらに強化できることを願っている。
また、このデータセットのベースラインとして、このデータセット上で2つのBERTの変種を予め実行しています。
関連論文リスト
- Sonnet or Not, Bot? Poetry Evaluation for Large Models and Datasets [3.0040661953201475]
大規模言語モデル(LLM)が詩を生成、認識できるようになった。
我々はLLMが英語詩の1つの側面をいかに認識するかを評価するタスクを開発する。
我々は,現在最先端のLLMが,一般的な文体と一般的でない文体の両方を識別できることを示す。
論文 参考訳(メタデータ) (2024-06-27T05:36:53Z) - A Computational Approach to Style in American Poetry [19.41186389974801]
我々は,アメリカの詩のスタイルを評価し,詩集を相互に視覚化する手法を開発した。
質的な詩批評は、様々な正書法、構文、音韻の特徴を分析するメトリクスの開発を導くのに役立ちました。
本手法は,テキストの学術研究,詩に対する直感的な個人的反応の研究,およびお気に入りの詩に基づいた読者への推薦に有効である。
論文 参考訳(メタデータ) (2023-10-13T18:49:14Z) - Ashaar: Automatic Analysis and Generation of Arabic Poetry Using Deep
Learning Approaches [7.021140304091526]
本稿では,アラビア詩の分析・生成に特化して設計されたデータセットと事前学習モデルの集合を含むtextitAshaar というフレームワークを紹介する。
提案手法で確立されたパイプラインは, メーター, テーマ, 年代分類など, 詩の様々な側面を包含する。
この取り組みの一環として、詩生成のためのデータセットと、診断のためのデータセットと、Arudiスタイルの予測のためのデータセットを4つ提供します。
論文 参考訳(メタデータ) (2023-07-12T15:07:16Z) - PoetryDiffusion: Towards Joint Semantic and Metrical Manipulation in
Poetry Generation [58.36105306993046]
制御可能なテキスト生成は自然言語生成(NLG)において困難かつ有意義な分野である
本稿では,ソネット生成のための拡散モデルと中国語のSongCi詩の創始について述べる。
本モデルでは,人的評価だけでなく,意味的,計量的,総合的な性能の自動評価において,既存のモデルよりも優れる。
論文 参考訳(メタデータ) (2023-06-14T11:57:31Z) - A Method to Judge the Style of Classical Poetry Based on Pre-trained
Model [13.899056358137287]
本論文は、現在最も完璧な漢詩のデータセットを構築し、このデータセットに基づいて、BART-poem事前学習モデルを訓練し、一般に適用可能な詩風判断法を推し進めている。
実験の結果、テストされた詩文の判断結果は、基本的には以前の王朝の批判者による結論と一致し、清州氏の前衛的な判断を検証し、唐宋の詩文認識の課題を解き明かした。
論文 参考訳(メタデータ) (2022-11-09T03:11:15Z) - PoeLM: A Meter- and Rhyme-Controllable Language Model for Unsupervised
Poetry Generation [42.12348554537587]
形式詩は詩の韻律や韻律に厳格な制約を課している。
この種の詩を創作する以前の作品のほとんどは、既存の詩を監督に用いている。
本稿では,任意の韻律や韻律に従って詩を生成するための教師なしアプローチを提案する。
論文 参考訳(メタデータ) (2022-05-24T17:09:55Z) - Don't Go Far Off: An Empirical Study on Neural Poetry Translation [13.194404923699782]
いくつかの側面から詩の翻訳を実証的に検討する。
複数言語対の詩翻訳の並列データセットをコントリビュートする。
その結果,詩文の多言語微調整は,35倍の大きさの非詩文の多言語微調整よりも優れていた。
論文 参考訳(メタデータ) (2021-09-07T10:00:44Z) - Lingxi: A Diversity-aware Chinese Modern Poetry Generation System [43.36560720793425]
リンギキ(Lingxi)は、中国における多様性を意識した現代詩生成システムである。
ランダム化ヘッド(NS-RH)アルゴリズムを用いた核サンプリングを提案する。
フィルタされた語彙の大部分がランダム化されている場合でも、実際に流動的な詩を生成することができる。
論文 参考訳(メタデータ) (2021-08-27T03:33:28Z) - Generating Major Types of Chinese Classical Poetry in a Uniformed
Framework [88.57587722069239]
GPT-2に基づく漢詩の主要なタイプを生成するフレームワークを提案する。
予備的な結果は、この強化されたモデルが、形も内容も質の高い大型漢詩を生成できることを示している。
論文 参考訳(メタデータ) (2020-03-13T14:16:25Z) - MixPoet: Diverse Poetry Generation via Learning Controllable Mixed
Latent Space [79.70053419040902]
多様な要素を吸収し,多様なスタイルを創出し,多様性を促進する新しいモデルであるMixPoetを提案する。
半教師付き変分オートエンコーダに基づいて、我々のモデルは潜在空間をいくつかの部分空間に切り離し、それぞれが敵の訓練によって1つの影響因子に条件付けされる。
中国詩の実験結果は、MixPoetが3つの最先端モデルに対して多様性と品質の両方を改善していることを示している。
論文 参考訳(メタデータ) (2020-03-13T03:31:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。