論文の概要: Metrical Tagging in the Wild: Building and Annotating Poetry Corpora
with Rhythmic Features
- arxiv url: http://arxiv.org/abs/2102.08858v1
- Date: Wed, 17 Feb 2021 16:38:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-18 14:38:05.064562
- Title: Metrical Tagging in the Wild: Building and Annotating Poetry Corpora
with Rhythmic Features
- Title(参考訳): 野生のメトリクスタグ:リズムの特徴を持つ詩のコーポラの構築と注釈付け
- Authors: Thomas Haider
- Abstract要約: 英語とドイツ語に大規模な詩コーパスを提供し,コーパス駆動ニューラルモデルを訓練するためのコーパスを小型化した韻律的特徴をアノテートする。
音節埋め込みを用いた BiLSTM-CRF モデルは, CRF ベースラインと異なるBERT ベースアプローチよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A prerequisite for the computational study of literature is the availability
of properly digitized texts, ideally with reliable meta-data and ground-truth
annotation. Poetry corpora do exist for a number of languages, but larger
collections lack consistency and are encoded in various standards, while
annotated corpora are typically constrained to a particular genre and/or were
designed for the analysis of certain linguistic features (like rhyme). In this
work, we provide large poetry corpora for English and German, and annotate
prosodic features in smaller corpora to train corpus driven neural models that
enable robust large scale analysis.
We show that BiLSTM-CRF models with syllable embeddings outperform a CRF
baseline and different BERT-based approaches. In a multi-task setup, particular
beneficial task relations illustrate the inter-dependence of poetic features. A
model learns foot boundaries better when jointly predicting syllable stress,
aesthetic emotions and verse measures benefit from each other, and we find that
caesuras are quite dependent on syntax and also integral to shaping the overall
measure of the line.
- Abstract(参考訳): 文学の計算研究の前提条件は、適切にデジタル化されたテキストが利用可能であることであり、理想的には信頼できるメタデータと地上真理のアノテーションがある。
詩のコーポラはいくつかの言語で存在するが、より大きなコレクションは一貫性がなく、様々な標準で符号化されているが、注釈付きコーポラは通常特定のジャンルに制限され、または特定の言語的特徴(韻律など)の分析のために設計されている。
本研究では,英語とドイツ語の大規模な詩コーパスを提供し,より小さなコーパスに韻律的特徴を付加し,ロバストな大規模解析を可能にするコーパス駆動ニューラルモデルを訓練する。
音節埋め込みを用いた BiLSTM-CRF モデルは, CRF ベースラインと異なるBERT ベースアプローチよりも優れていることを示す。
マルチタスクのセットアップでは、特定の有益なタスク関係は詩的特徴の相互依存を示す。
モデルでは, 音節のストレス, 美的感情, 韻律的尺度が相互に有益であることを共同で予測すると, 足の境界がより良く学習される。
関連論文リスト
- Entropy and type-token ratio in gigaword corpora [0.0]
本研究では,英語,スペイン語,トルコ語の6つの大規模言語データセットにおいて,語彙の多様性を示す2つの指標であるエントロピーとテキストトケン比について検討した。
コーパスを横切るエントロピーとテキスト-トケン比の関数的関係が検討されている。
この結果は,テキスト構造の理論的理解に寄与し,自然言語処理などの分野に実践的な意味を与える。
論文 参考訳(メタデータ) (2024-11-15T14:40:59Z) - Sonnet or Not, Bot? Poetry Evaluation for Large Models and Datasets [3.0040661953201475]
大規模言語モデル(LLM)が詩を生成、認識できるようになった。
我々はLLMが英語詩の1つの側面をいかに認識するかを評価するタスクを開発する。
我々は,現在最先端のLLMが,一般的な文体と一般的でない文体の両方を識別できることを示す。
論文 参考訳(メタデータ) (2024-06-27T05:36:53Z) - A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - ALBERTI, a Multilingual Domain Specific Language Model for Poetry
Analysis [0.0]
我々は、詩のための最初の多言語事前訓練された大規模言語モデルであるtextscAlbertiを提示する。
さらに12言語から1200万節以上のコーパスで多言語BERTを訓練した。
textscAlbertiは、ルールベースのシステムと比較して、ドイツ語の最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-07-03T22:50:53Z) - PoetryDiffusion: Towards Joint Semantic and Metrical Manipulation in
Poetry Generation [58.36105306993046]
制御可能なテキスト生成は自然言語生成(NLG)において困難かつ有意義な分野である
本稿では,ソネット生成のための拡散モデルと中国語のSongCi詩の創始について述べる。
本モデルでは,人的評価だけでなく,意味的,計量的,総合的な性能の自動評価において,既存のモデルよりも優れる。
論文 参考訳(メタデータ) (2023-06-14T11:57:31Z) - How much do language models copy from their training data? Evaluating
linguistic novelty in text generation using RAVEN [63.79300884115027]
現在の言語モデルは高品質なテキストを生成することができる。
彼らは、これまで見たテキストを単にコピーしているか、それとも一般化可能な言語的抽象化を学んだのか?
本稿では、生成したテキストの新規性を評価するための分析スイートであるRAVENを紹介する。
論文 参考訳(メタデータ) (2021-11-18T04:07:09Z) - Syllabic Quantity Patterns as Rhythmic Features for Latin Authorship
Attribution [74.27826764855911]
我々は、ラテン散文の計算的オーサシップ属性のタスクにおいて、リズミカルな特徴を導出する基盤として、音節量を用いる。
2つの異なる機械学習手法を用いて3つの異なるデータセットを用いて実験を行い、音節量に基づくリズム特徴がラテン散文の著者の識別に有用であることを示した。
論文 参考訳(メタデータ) (2021-10-27T06:25:31Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Quasi Error-free Text Classification and Authorship Recognition in a
large Corpus of English Literature based on a Novel Feature Set [0.0]
GLECの準誤りのないテキスト分類とオーサシップ認識は,同一の5つのスタイルと5つのコンテンツ特徴を用いた手法で可能であることを示す。
我々のデータは、心理学を読むための文学や実験の、多くの未来の計算および実証的研究の道を開く。
論文 参考訳(メタデータ) (2020-10-21T07:39:55Z) - Self-organizing Pattern in Multilayer Network for Words and Syllables [17.69876273827734]
音節の等しく重要な役割を強調する新しい普遍法則を提案する。
英語と中国語のコーパスで単語と音節のランク頻度分布をプロットすることにより、目に見える線が出現し、マスターカーブに適合する。
論文 参考訳(メタデータ) (2020-05-05T12:01:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。