論文の概要: ByGPT5: End-to-End Style-conditioned Poetry Generation with Token-free
Language Models
- arxiv url: http://arxiv.org/abs/2212.10474v2
- Date: Mon, 22 May 2023 21:15:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 00:43:03.273548
- Title: ByGPT5: End-to-End Style-conditioned Poetry Generation with Token-free
Language Models
- Title(参考訳): bygpt5:トークンフリー言語モデルによるエンドツーエンドのスタイル条件付き詩生成
- Authors: Jonas Belouadi, Steffen Eger
- Abstract要約: そこで本研究では,韻律,韻律,韻律などの文体に規定された終末詩の生成について検討する。
我々は、新しいトークンフリーデコーダのみの言語モデルであるBYGPT5の事前トレーニングに成功した。
ByGPT5は,mT5,BYT5,GPT-2,ChatGPTなどの他のモデルよりも優れ,パラメータ効率が良く,人間に好適な性能を示す。
- 参考スコア(独自算出の注目度): 23.381986209234157
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art poetry generation systems are often complex. They either
consist of task-specific model pipelines, incorporate prior knowledge in the
form of manually created constraints, or both. In contrast, end-to-end models
would not suffer from the overhead of having to model prior knowledge and could
learn the nuances of poetry from data alone, reducing the degree of human
supervision required. In this work, we investigate end-to-end poetry generation
conditioned on styles such as rhyme, meter, and alliteration. We identify and
address lack of training data and mismatching tokenization algorithms as
possible limitations of past attempts. In particular, we successfully pre-train
ByGPT5, a new token-free decoder-only language model, and fine-tune it on a
large custom corpus of English and German quatrains annotated with our styles.
We show that ByGPT5 outperforms other models such as mT5, ByT5, GPT-2 and
ChatGPT, while also being more parameter efficient and performing favorably
compared to humans. In addition, we analyze its runtime performance and
demonstrate that it is not prone to memorization. We make our code, models, and
datasets publicly available.
- Abstract(参考訳): 最先端の詩生成システムはしばしば複雑である。
それらはタスク固有のモデルパイプラインで構成されており、手作業で作成した制約の形で事前の知識を取り入れているか、両方です。
対照的に、エンドツーエンドモデルは、事前知識をモデル化するオーバーヘッドに悩まされず、データだけで詩のニュアンスを学ぶことができ、人間の監督の度合いを低下させる。
本研究では,韻律,韻律,朗読などの文体を条件とした終末詩の生成について検討する。
我々は過去の試みの限界として、トレーニングデータの欠如とトークン化アルゴリズムのミスマッチを特定し、対処する。
特に,新しいトークンフリーのデコーダのみの言語モデルである bygpt5 の事前学習に成功し,我々のスタイルにアノテートされた英語とドイツ語の大規模コーパスでそれを微調整した。
ByGPT5は,mT5,BYT5,GPT-2,ChatGPTなどの他のモデルよりも優れ,パラメータ効率が良く,人間に好適な性能を示す。
さらに,その実行時性能を分析し,記憶に乏しいことを示す。
コード、モデル、データセットを公開しています。
関連論文リスト
- Sonnet or Not, Bot? Poetry Evaluation for Large Models and Datasets [3.0040661953201475]
大規模言語モデル(LLM)が詩を生成、認識できるようになった。
我々はLLMが英語詩の1つの側面をいかに認識するかを評価するタスクを開発する。
我々は,現在最先端のLLMが,一般的な文体と一般的でない文体の両方を識別できることを示す。
論文 参考訳(メタデータ) (2024-06-27T05:36:53Z) - GPT Czech Poet: Generation of Czech Poetic Strophes with Language Models [0.4444634303550442]
チェコ語で詩を生成するための新しいモデルを提案する。
詩文中のストロフェパラメータを明示的に指定することで生成プロセスの指導がモデルの有効性を強く向上することを示す。
論文 参考訳(メタデータ) (2024-06-18T06:19:45Z) - FOCUS: Forging Originality through Contrastive Use in Self-Plagiarism for Language Models [38.76912842622624]
プレトレーニング言語モデル(PLM)は、様々な自然言語生成(NLG)タスクにおいて印象的な結果を示している。
本研究では, PLMが生成するテキストの独創性を高めることを目的とした, 独特な「自己プラギアリズム」コントラスト的復号戦略を提案する。
論文 参考訳(メタデータ) (2024-06-02T19:17:00Z) - PoetryDiffusion: Towards Joint Semantic and Metrical Manipulation in
Poetry Generation [58.36105306993046]
制御可能なテキスト生成は自然言語生成(NLG)において困難かつ有意義な分野である
本稿では,ソネット生成のための拡散モデルと中国語のSongCi詩の創始について述べる。
本モデルでは,人的評価だけでなく,意味的,計量的,総合的な性能の自動評価において,既存のモデルよりも優れる。
論文 参考訳(メタデータ) (2023-06-14T11:57:31Z) - Fine-Tashkeel: Finetuning Byte-Level Models for Accurate Arabic Text
Diacritization [10.342180619706724]
トークンのない事前訓練された多言語モデルを微調整し、アラビア文字に欠落したダイアクリティカルを予測し挿入することを学ぶ。
我々は,最小限の訓練量と機能工学を伴わずに,診断タスクの最先端を達成できることを実証した。
論文 参考訳(メタデータ) (2023-03-25T23:41:33Z) - T5lephone: Bridging Speech and Text Self-supervised Models for Spoken
Language Understanding via Phoneme level T5 [65.32642587901903]
我々は、異なるトークン化戦略を持つPLMが音声言語理解タスクにどのように影響するかを広範囲に研究する。
我々は、音素化されたテキストを使って事前訓練されたT5の変種であるT5lephoneを作成するためのアイデアを拡張した。
論文 参考訳(メタデータ) (2022-11-01T17:00:23Z) - Quark: Controllable Text Generation with Reinforced Unlearning [68.07749519374089]
大規模言語モデルは、しばしばユーザの期待に合わない振る舞いを学ぶ。
本稿では,(不必要な)特性を定量化する報酬関数を最適化するアルゴリズムQuarkを紹介する。
未学習の毒性、ネガティブな感情、反復について、我々の実験はQuarkが強いベースラインと最先端の強化学習法の両方より優れていることを示している。
論文 参考訳(メタデータ) (2022-05-26T21:11:51Z) - Twist Decoding: Diverse Generators Guide Each Other [116.20780037268801]
様々なモデルの恩恵を受けながらテキストを生成するシンプルで一般的な推論アルゴリズムであるTwist decodingを導入する。
我々の方法は、語彙、トークン化、あるいは生成順序が共有されていると仮定しない。
論文 参考訳(メタデータ) (2022-05-19T01:27:53Z) - ByT5: Towards a token-free future with pre-trained byte-to-byte models [23.532359202069063]
最も広く使われている事前訓練言語モデルは、単語またはサブワード単位に対応するトークンのシーケンスで動作する。
標準的な Transformer アーキテクチャは,バイト列の処理に最小限の修正を加えて使用できることを示す。
また、バイトレベルのモデルはノイズに対して著しく堅牢であり、スペルや発音に敏感なタスクでも性能が向上することを示した。
論文 参考訳(メタデータ) (2021-05-28T07:03:22Z) - Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese
Pre-trained Language Models [62.41139712595334]
中国語のための新しい事前学習パラダイムであるLattice-BERTを提案する。
文中の文字や単語から格子グラフを構築し、これらすべてのテキスト単位をトランスフォーマーに供給します。
本モデルが12層設定で平均1.5%の増加をもたらすことを示した。
論文 参考訳(メタデータ) (2021-04-15T02:36:49Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。