論文の概要: Training Data Size Sensitivity in Unsupervised Rhyme Recognition
- arxiv url: http://arxiv.org/abs/2604.08156v1
- Date: Thu, 09 Apr 2026 12:17:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.906883
- Title: Training Data Size Sensitivity in Unsupervised Rhyme Recognition
- Title(参考訳): 教師なしリズム認識におけるトレーニングデータサイズ感度
- Authors: Petr Plecháč, Artjoms Šeļa, Silvie Cinková, Mirella De Sisto, Lara Nugues, Neža Kočnik, Antonina Martynenko, Ben Nagy, Luca Giovannini, Robert Kolár,
- Abstract要約: 韻律は知覚的に直観的であり、歴史的に韻律であるかどうか、学者は韻律の分類に苦慮し、2つの単語が韻律であるかどうかに意見が一致しない。
本稿では,RhymeTaggerを用いた信頼できない韻律認識に必要なトレーニングデータ量について検討する。
- 参考スコア(独自算出の注目度): 0.6815987996019324
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Rhyme is deceptively intuitive: what is or is not a rhyme is constructed historically, scholars struggle with rhyme classification, and people disagree on whether two words are rhymed or not. This complicates automated rhymed recognition and evaluation, especially in multilingual context. This article investigates how much training data is needed for reliable unsupervised rhyme recognition using RhymeTagger, a language-independent tool that identifies rhymes based on repeating patterns in poetry corpora. We evaluate its performance across seven languages (Czech, German, English, French, Italian, Russian, and Slovene), examining how training size and language differences affect accuracy. To set a realistic performance benchmark, we assess inter-annotator agreement on a manually annotated subset of poems and analyze factors contributing to disagreement in expert annotations: phonetic similarity between rhyming words and their distance from each other in a poem. We also compare RhymeTagger to three large language models using a one-shot learning strategy. Our findings show that, once provided with sufficient training data, RhymeTagger consistently outperforms human agreement, while LLMs lacking phonetic representation significantly struggle with the task.
- Abstract(参考訳): 韻律は知覚的に直観的であり、歴史的に韻律であるかどうか、学者は韻律の分類に苦慮し、2つの単語が韻律であるかどうかに意見が一致しない。
これは、特に多言語文脈において、自動韻律認識と評価を複雑にする。
本稿では,詩文コーパスの繰り返しパターンに基づいて韻律を識別する言語に依存しないツールであるRhymeTaggerを用いて,信頼できない韻律認識にどの程度のトレーニングデータが必要であるかを検討する。
我々は、そのパフォーマンスを7つの言語(チェコ語、ドイツ語、英語、フランス語、イタリア語、ロシア語、スロベニア語)で評価し、トレーニングのサイズと言語の違いが精度に与える影響について検討した。
そこで本研究では,手作業による注釈付き詩のサブセットに対するアノテータ間合意の評価を行い,専門家のアノテーションの相違に寄与する要因について分析した。
また、RhymeTaggerをワンショット学習戦略を用いて3つの大きな言語モデルと比較する。
以上の結果から,RhymeTaggerは十分なトレーニングデータを提供しれば,人間との合意を常に上回り,LLMには音声表現が欠けていることが示唆された。
関連論文リスト
- Floating or Suggesting Ideas? A Large-Scale Contrastive Analysis of Metaphorical and Literal Verb-Object Constructions [53.690096725532726]
本研究では,2Mコーパス文中の297の英語動詞オブジェクト対(例:float idea vs. suggest idea)を分析した。
5つのNLPツールを用いて,感情的,語彙的,統語的,言論的な特徴を捉えた認知的・言語的特徴2,293点を抽出した。
クロスペアの結果は, 語彙頻度, 凝集度, 構造規則性が高く, 比喩的文脈は感情負荷, イメージ性, 語彙多様性, 構造的特異性を示す。
論文 参考訳(メタデータ) (2026-04-09T14:08:57Z) - Echoes Across Centuries: Phonetic Signatures of Persian Poets [0.0]
この研究は、83人の詩人によって書かれた31,988首の詩から、1,116,306首のメスラスの大規模なコーパスを描いている。
各行は、グラフから音素への表現に変換され、6つの音韻指標を用いて分析される。
この研究はペルシャ詩における音声分析のためのコーパススケールの枠組みを確立する。
論文 参考訳(メタデータ) (2026-03-15T15:41:21Z) - Automated Evaluation of Meter and Rhyme in Russian Generative and Human-Authored Poetry [0.0]
我々は,ロシア語詩におけるストレスマーク配置のためのロシア語詩スキャンツールライブラリを紹介する。
RIFMA - 様々なジャンルや形式にまたがる詩の断片のデータセット。
論文 参考訳(メタデータ) (2025-02-28T10:39:07Z) - Sonnet or Not, Bot? Poetry Evaluation for Large Models and Datasets [3.0040661953201475]
大規模言語モデル(LLM)が詩を生成、認識できるようになった。
我々はLLMが英語詩の1つの側面をいかに認識するかを評価するタスクを開発する。
我々は,現在最先端のLLMが,一般的な文体と一般的でない文体の両方を識別できることを示す。
論文 参考訳(メタデータ) (2024-06-27T05:36:53Z) - RankCSE: Unsupervised Sentence Representations Learning via Learning to
Rank [54.854714257687334]
本稿では,教師なし文表現学習のための新しい手法であるRangCSEを提案する。
コントラスト学習を伴うランキング一貫性とランキング蒸留を統一された枠組みに組み込む。
セマンティックテキスト類似性(STS)と転送タスク(TR)の両方について、広範な実験が実施されている。
論文 参考訳(メタデータ) (2023-05-26T08:27:07Z) - Unsupervised Melody-Guided Lyrics Generation [84.22469652275714]
メロディと歌詞の一致したデータを学習することなく、楽しく聴ける歌詞を生成することを提案する。
メロディと歌詞間の重要なアライメントを活用し、与えられたメロディを制約にコンパイルし、生成プロセスを導く。
論文 参考訳(メタデータ) (2023-05-12T20:57:20Z) - Syllabic Quantity Patterns as Rhythmic Features for Latin Authorship
Attribution [74.27826764855911]
我々は、ラテン散文の計算的オーサシップ属性のタスクにおいて、リズミカルな特徴を導出する基盤として、音節量を用いる。
2つの異なる機械学習手法を用いて3つの異なるデータセットを用いて実験を行い、音節量に基づくリズム特徴がラテン散文の著者の識別に有用であることを示した。
論文 参考訳(メタデータ) (2021-10-27T06:25:31Z) - My Teacher Thinks The World Is Flat! Interpreting Automatic Essay
Scoring Mechanism [71.34160809068996]
最近の研究では、自動スコアリングシステムが常識的な敵対的サンプルになりやすいことが示されています。
近年の解釈能力の進歩を活かし,コヒーレンスやコンテント,関連性といった特徴がスコアリングの自動化にどの程度重要であるかを見出す。
また、モデルが意味的に世界知識や常識に基づかないことから、世界のような虚偽の事実を追加することは、それを減らすよりもむしろスコアを増加させる。
論文 参考訳(メタデータ) (2020-12-27T06:19:20Z) - Improving Weakly Supervised Visual Grounding by Contrastive Knowledge
Distillation [55.198596946371126]
本稿では,領域句と画像文マッチングの両方を考慮したコントラスト学習フレームワークを提案する。
我々の中心となる革新は、画像文スコア関数を更に構築した領域句スコア関数の学習である。
このようなスコア関数の設計は、テスト時のオブジェクト検出の必要性を排除し、推論コストを大幅に削減する。
論文 参考訳(メタデータ) (2020-07-03T22:02:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。