論文の概要: so much depends / upon / a whitespace: Why Whitespace Matters for Poets and LLMs
- arxiv url: http://arxiv.org/abs/2510.16713v1
- Date: Sun, 19 Oct 2025 04:52:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:11.845066
- Title: so much depends / upon / a whitespace: Why Whitespace Matters for Poets and LLMs
- Title(参考訳): ホワイトスペースはなぜ詩人やLLMにとって重要なのか
- Authors: Sriharsh Bhyravajjula, Melanie Walsh, Anna Preus, Maria Antoniak,
- Abstract要約: 4kの詩人がその作品にホワイトスペースをどのように用いているかを調べる。
異なるテキスト処理手法が詩データにおける空白の表現に大きく異なる結果をもたらすことが判明した。
- 参考スコア(独自算出の注目度): 5.932810600279285
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Whitespace is a critical component of poetic form, reflecting both adherence to standardized forms and rebellion against those forms. Each poem's whitespace distribution reflects the artistic choices of the poet and is an integral semantic and spatial feature of the poem. Yet, despite the popularity of poetry as both a long-standing art form and as a generation task for large language models (LLMs), whitespace has not received sufficient attention from the NLP community. Using a corpus of 19k English-language published poems from Poetry Foundation, we investigate how 4k poets have used whitespace in their works. We release a subset of 2.8k public-domain poems with preserved formatting to facilitate further research in this area. We compare whitespace usage in the published poems to (1) 51k LLM-generated poems, and (2) 12k unpublished poems posted in an online community. We also explore whitespace usage across time periods, poetic forms, and data sources. Additionally, we find that different text processing methods can result in significantly different representations of whitespace in poetry data, motivating us to use these poems and whitespace patterns to discuss implications for the processing strategies used to assemble pretraining datasets for LLMs.
- Abstract(参考訳): ホワイトスペースは詩の形式の重要な要素であり、標準化された形式への固執とそれらの形式に対する反抗の両方を反映している。
それぞれの詩の白い空間の分布は、詩人の芸術的選択を反映しており、詩の一体的な意味と空間的特徴である。
しかし、長きにわたる芸術形式としての詩の人気と、大規模言語モデル(LLM)の世代課題にもかかわらず、ホワイトスペースはNLPコミュニティから十分な注目を集めていない。
詩文財団が出版した19kの英文詩のコーパスを用いて、4kの詩人が自身の作品にホワイトスペースをどのように利用したかを調べる。
我々は、この領域でさらなる研究を促進するために、保存されたフォーマットを備えた2.8kのパブリックドメイン詩のサブセットをリリースする。
公開詩のホワイトスペース使用率を,(1)51k LLM生成詩,(2)オンラインコミュニティに投稿された12kの未発表詩と比較した。
また、時間帯、詩形、データソースのホワイトスペース利用についても検討する。
さらに、異なるテキスト処理手法が詩データにおける空白の表現を著しく異なるものにし、これらの詩と空白のパターンを用いて、LLMのための事前学習データセットを組み立てるのに使用する処理戦略の意義を議論する動機となることが判明した。
関連論文リスト
- Does ChatGPT Have a Poetic Style? [0.6827423171182154]
我々は、GPT-3.5とGPT-4モデルに、24種類の詩形式とスタイルで英語詩を生成するよう促す。
得られた5.7k詩を分析し、これらを詩財団とアメリカ詩人アカデミーの3.7k詩のサンプルと比較する。
GPTモデル、特にGPT-4は、共通言語と非共通言語の両方で詩を作成できることがわかった。
論文 参考訳(メタデータ) (2024-10-20T06:01:34Z) - Sonnet or Not, Bot? Poetry Evaluation for Large Models and Datasets [3.0040661953201475]
大規模言語モデル(LLM)が詩を生成、認識できるようになった。
我々はLLMが英語詩の1つの側面をいかに認識するかを評価するタスクを開発する。
我々は,現在最先端のLLMが,一般的な文体と一般的でない文体の両方を識別できることを示す。
論文 参考訳(メタデータ) (2024-06-27T05:36:53Z) - PoetryDiffusion: Towards Joint Semantic and Metrical Manipulation in
Poetry Generation [58.36105306993046]
制御可能なテキスト生成は自然言語生成(NLG)において困難かつ有意義な分野である
本稿では,ソネット生成のための拡散モデルと中国語のSongCi詩の創始について述べる。
本モデルでは,人的評価だけでなく,意味的,計量的,総合的な性能の自動評価において,既存のモデルよりも優れる。
論文 参考訳(メタデータ) (2023-06-14T11:57:31Z) - PoeLM: A Meter- and Rhyme-Controllable Language Model for Unsupervised
Poetry Generation [42.12348554537587]
形式詩は詩の韻律や韻律に厳格な制約を課している。
この種の詩を創作する以前の作品のほとんどは、既存の詩を監督に用いている。
本稿では,任意の韻律や韻律に従って詩を生成するための教師なしアプローチを提案する。
論文 参考訳(メタデータ) (2022-05-24T17:09:55Z) - Syllabic Quantity Patterns as Rhythmic Features for Latin Authorship
Attribution [74.27826764855911]
我々は、ラテン散文の計算的オーサシップ属性のタスクにおいて、リズミカルな特徴を導出する基盤として、音節量を用いる。
2つの異なる機械学習手法を用いて3つの異なるデータセットを用いて実験を行い、音節量に基づくリズム特徴がラテン散文の著者の識別に有用であることを示した。
論文 参考訳(メタデータ) (2021-10-27T06:25:31Z) - CCPM: A Chinese Classical Poetry Matching Dataset [50.90794811956129]
本稿では,詩のマッチングによるモデルの意味的理解を評価するための新しい課題を提案する。
この課題は、現代漢訳の漢詩では、4人の候補者の中から1行の漢詩を選ばなければならない。
このデータセットを構築するために、まず中国古典詩と現代中国語の翻訳の並列データを得る。
論文 参考訳(メタデータ) (2021-06-03T16:49:03Z) - DISCO PAL: Diachronic Spanish Sonnet Corpus with Psychological and
Affective Labels [1.7205106391379026]
本稿では,スペイン語ソネットの注釈付きコーパスについて,GAMを予測するために個々の単語から特徴を構築できるかどうかを解析するために検討する。
使用したコーパスには、15世紀から19世紀にかけての様々な世紀の著者による274のスペイン語ソネットが含まれている。
これにより、ソネットのコーパスは、詩推薦システム、著者の人格テキストマイニング研究、治療目的の詩の使用など、様々な用途で利用することができる。
論文 参考訳(メタデータ) (2020-07-09T08:26:22Z) - MixPoet: Diverse Poetry Generation via Learning Controllable Mixed
Latent Space [79.70053419040902]
多様な要素を吸収し,多様なスタイルを創出し,多様性を促進する新しいモデルであるMixPoetを提案する。
半教師付き変分オートエンコーダに基づいて、我々のモデルは潜在空間をいくつかの部分空間に切り離し、それぞれが敵の訓練によって1つの影響因子に条件付けされる。
中国詩の実験結果は、MixPoetが3つの最先端モデルに対して多様性と品質の両方を改善していることを示している。
論文 参考訳(メタデータ) (2020-03-13T03:31:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。