論文の概要: Token-free LLMs Can Generate Chinese Classical Poetry with More Accurate
Format
- arxiv url: http://arxiv.org/abs/2401.03512v2
- Date: Tue, 9 Jan 2024 03:52:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 13:00:00.277296
- Title: Token-free LLMs Can Generate Chinese Classical Poetry with More Accurate
Format
- Title(参考訳): トケンフリーのLLMは、より正確なフォーマットで中国古典詩を生成できる
- Authors: Chengyue Yu, Lei Zang, Jiaotuan Wang, Chenyi Zhuang, Jinjie Gu
- Abstract要約: トークンベースの大規模言語モデルはトークンと文字の関係について限られた知識しか持たないことを示す。
次に、トークンベースのモデルを簡単にトークンフリーモデルにカスタマイズできることを示します。
トークンフリーモデルは0.96であり、トークンベースの等価量では0.84、GPT-4では0.38である。
- 参考スコア(独自算出の注目度): 8.19242930344743
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Finetuned large language models (such as ChatGPT and Qwen-chat) can generate
Chinese classical poetry following human's instructions. LLMs perform well in
content, but are usually lacking in format, with occasionally excess or
insufficient number of characters in each line. Since most SOTA LLMs are
token-based, we assume that the format inaccuracy is due to the difficulty of
the "token planning" task, which means that the LLM need to know exactly how
much characters are contained in each token and do length-control planning
based on that knowledge. In this paper, we first confirm our assumption by
showing that existing token-based large language models has limited knowledge
on token-character relationship. We use a spelling bee probing procedure, and
find that Qwen-chat failed in nearly 15% Chinese spelling test. We then show
that a token-based model can be easily tailored into a token-free model (in
terms of Chinese), which can largely solve the format accuracy problem. Our
tailoring procedure removes long-tokens from the vocabulary and the language
model head, and keeps only character-level or byte-level tokens. As part of our
contribution, we release the finetuned token-free model (which is based on
Qwen-chat-7B), which can generate chinese classical poetry following complex
instructions like LLMs (such as story paraphrasing), and also perform well in
format. On the test set, our token-free model achives an format accuracy of
0.96, compared to 0.84 for token-based equivalents and 0.38 for GPT-4.
- Abstract(参考訳): 微調整された大きな言語モデル(chatgptやqwen-chatなど)は、人間の指示に従って中国の古典詩を生成することができる。
LLMは内容的には良好に機能するが、通常フォーマットに欠けており、各行の文字数が時折過剰または不足している。
多くのSOTA LLMはトークンベースであるため、フォーマットの不正確さは「トークン計画」タスクの難しさによるものと仮定する。
本稿では,既存のトークンベース大規模言語モデルにおいて,トークン-文字関係に関する知識が限られていることを示す。
我々はスペルミツバチ探索法を用いて,Qwen-chatが約15%の中国語スペルテストで失敗したことを発見した。
次に、トークンベースのモデルを(中国語で)トークンフリーモデルに容易に調整できることを示し、フォーマット精度の問題を大幅に解決できる。
我々の調整手順は語彙と言語モデルヘッドから長いトークンを取り除き、文字レベルまたはバイトレベルのトークンのみを保持する。
コントリビューションの一環として,LLMのような複雑な命令(ストーリーパラフレージングなど)に従って中国語の古典詩を生成でき,形式的にも良好に機能する,微調整のトークンフリーモデル(Qwen-chat-7Bをベースとする)をリリースする。
テストセットでは,トークンフリーモデルでは0.96,トークンベースでは0.84,GPT-4では0.38であった。
関連論文リスト
- Parrot: Multilingual Visual Instruction Tuning [66.65963606552839]
視覚エンコーダとマルチモーダル大言語モデル(MLLM)の整合性に着目した既存手法
そこで本研究では,テキストガイダンスを用いて視覚的トークンアライメントを言語レベルで促進する新しい手法であるParrotを紹介する。
本手法は,多言語MMBenchおよびMMMB上での最先端性能を示すだけでなく,多モーダルタスクにも優れる。
論文 参考訳(メタデータ) (2024-06-04T17:56:28Z) - Introducing Syllable Tokenization for Low-resource Languages: A Case Study with Swahili [29.252250069388687]
トークン化は、文字やサブワードに基づいて単語を分割することができ、言語の構造を最もよく表す単語埋め込みを生成する。
そこで我々は,スワヒリ語に基づく音節トークン化手法を提案し,実験中心の手法を適用した。
論文 参考訳(メタデータ) (2024-03-26T17:26:50Z) - AlignedCoT: Prompting Large Language Models via Native-Speaking Demonstrations [52.43593893122206]
Alignedcotは、大規模言語モデルを呼び出すためのコンテキスト内学習技術である。
ゼロショットシナリオでは、一貫した正しいステップワイズプロンプトを達成する。
数学的推論とコモンセンス推論の実験を行う。
論文 参考訳(メタデータ) (2023-11-22T17:24:21Z) - ByGPT5: End-to-End Style-conditioned Poetry Generation with Token-free
Language Models [23.381986209234157]
そこで本研究では,韻律,韻律,韻律などの文体に規定された終末詩の生成について検討する。
我々は、新しいトークンフリーデコーダのみの言語モデルであるBYGPT5の事前トレーニングに成功した。
ByGPT5は,mT5,BYT5,GPT-2,ChatGPTなどの他のモデルよりも優れ,パラメータ効率が良く,人間に好適な性能を示す。
論文 参考訳(メタデータ) (2022-12-20T17:49:49Z) - Help me write a poem: Instruction Tuning as a Vehicle for Collaborative
Poetry Writing [17.975181293647697]
本稿では,コラボレーティブな詩文作成システムであるCoPoetを紹介する。
ユーザのテキストの自動補完とは対照的に、CoPoetは所望のテキストの属性を指定するユーザ命令によって制御される。
15人のクラウドワーカーによる調査では、モナーキーから気候変動までさまざまなトピックについて、CoPoetを使って詩を書くことに成功した。
論文 参考訳(メタデータ) (2022-10-25T00:07:10Z) - What do tokens know about their characters and how do they know it? [3.8254443661593633]
サブワードトークン化スキームを用いた事前学習型言語モデルは,文字レベルの情報を必要とする様々な言語タスクで成功することを示す。
これらのモデルが文字レベル情報を強固にエンコードし、一般に、より大きなモデルがそのタスクにおいてより優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2022-06-06T13:27:26Z) - Chinese Traditional Poetry Generating System Based on Deep Learning [0.0]
本稿では,ディープラーニング技術に基づく漢詩の自動生成手法を提案する。
それぞれの詩からキーワードを抽出し、それらを前の文章と一致させて、その詩を主題に適合させる。
ユーザが文章の段落を入力すると、そのテーマを取得し、文によって詩文を生成する。
論文 参考訳(メタデータ) (2021-10-24T02:43:03Z) - Charformer: Fast Character Transformers via Gradient-based Subword
Tokenization [50.16128796194463]
モデルの一部としてサブワードトークン化をエンドツーエンドに学習する新しいモデル帰納バイアスを提案する。
文字から潜在単語表現を自動的に学習する,ソフトグラデーションベースのサブワードトークンモジュール(GBST)を導入する。
また、GBSTを統合し、バイトレベルで動作する深層トランスフォーマーモデルであるCharformerを紹介する。
論文 参考訳(メタデータ) (2021-06-23T22:24:14Z) - CCPM: A Chinese Classical Poetry Matching Dataset [50.90794811956129]
本稿では,詩のマッチングによるモデルの意味的理解を評価するための新しい課題を提案する。
この課題は、現代漢訳の漢詩では、4人の候補者の中から1行の漢詩を選ばなければならない。
このデータセットを構築するために、まず中国古典詩と現代中国語の翻訳の並列データを得る。
論文 参考訳(メタデータ) (2021-06-03T16:49:03Z) - SHUOWEN-JIEZI: Linguistically Informed Tokenizers For Chinese Language
Model Pretraining [48.880840711568425]
事前学習された言語モデルの中国語トークン化に対する3つの要因の影響について検討する。
本稿では,発音に基づくトークン化システムであるSHUOWEN (Talk Word) と,グリフに基づくトークン化システムであるJIEZI (Solve Character) の3種類のトークン化手法を提案する。
SHUOWENとJIEZIは、一般的に従来のシングル文字トークンよりも優れた性能を持つ。
論文 参考訳(メタデータ) (2021-06-01T11:20:02Z) - Generating Major Types of Chinese Classical Poetry in a Uniformed
Framework [88.57587722069239]
GPT-2に基づく漢詩の主要なタイプを生成するフレームワークを提案する。
予備的な結果は、この強化されたモデルが、形も内容も質の高い大型漢詩を生成できることを示している。
論文 参考訳(メタデータ) (2020-03-13T14:16:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。