論文の概要: Can Language Models Make Fun? A Case Study in Chinese Comical Crosstalk
- arxiv url: http://arxiv.org/abs/2207.00735v1
- Date: Sat, 2 Jul 2022 04:30:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-05 13:54:20.549083
- Title: Can Language Models Make Fun? A Case Study in Chinese Comical Crosstalk
- Title(参考訳): 言語モデルは楽しめますか?
中国語comical crosstalkにおける事例研究
- Authors: Benyou Wang, Xiangbo Wu, Xiaokang Liu, Jianquan Li, Prayag Tiwari,
Qianqian Xie
- Abstract要約: 自然言語生成が人間のようにユーモアを発生させるかどうかを予備的に検証することを目的としている。
我々は,Scratch Seq2seq,微調整中規模PLM,大規模PLMなど,様々な世代のアプローチをベンチマークする。
結論として,大規模PLMを用いてユーモア生成を大幅に改善することができるが,まだ初期段階にある。
- 参考スコア(独自算出の注目度): 12.349133310758562
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language is the principal tool for human communication, in which humor is one
of the most attractive parts. Producing natural language like humans using
computers, a.k.a, Natural Language Generation (NLG), has been widely used for
dialogue systems, chatbots, machine translation, as well as computer-aid
creation e.g., idea generations, scriptwriting. However, the humor aspect of
natural language is relatively under-investigated, especially in the age of
pre-trained language models. In this work, we aim to preliminarily test whether
NLG can generate humor as humans do. We build a new dataset consisting of
numerous digitized Chinese Comical Crosstalk scripts (called C$^3$ in short),
which is for a popular Chinese performing art called `Xiangsheng' since 1800s.
(For convenience for non-Chinese speakers, we called `crosstalk' for
`Xiangsheng' in this paper.) We benchmark various generation approaches
including training-from-scratch Seq2seq, fine-tuned middle-scale PLMs, and
large-scale PLMs (with and without fine-tuning). Moreover, we also conduct a
human assessment, showing that 1) large-scale pretraining largely improves
crosstalk generation quality; and 2) even the scripts generated from the best
PLM is far from what we expect, with only 65% quality of human-created
crosstalk. We conclude, humor generation could be largely improved using
large-scaled PLMs, but it is still in its infancy.
The data and benchmarking code is publicly available in
\url{https://github.com/anonNo2/crosstalk-generation}.
- Abstract(参考訳): 言語は人間のコミュニケーションの主要な道具であり、ユーモアは最も魅力的な部分の1つである。
コンピュータを使った人間のような自然言語の生成、すなわち自然言語生成(nlg)は、対話システム、チャットボット、機械翻訳、コンピュータエイドの創造、例えばアイデア世代、スクリプトライティングなどに広く使われている。
しかしながら、自然言語のユーモアの側面は、特に事前訓練された言語モデルの時代において、比較的過小評価されている。
本研究では,NLGが人間のようにユーモアを生成できるかどうかを事前に検証することを目的とする。
1800年代以降、中国で人気の高い芸能作品「xiangsheng」のために、多数のデジタル化されたコミッククロストークスクリプト(略して「c$^3$」と呼ばれる)からなる新しいデータセットを構築した。
(この論文では、非中国語話者の便宜上「クロストーク」を「xangsheng」と呼んだ。)
我々は,Scratch Seq2seq,微調整中規模PLM,大規模PLM(微調整なし/微調整なし)など,様々な世代のアプローチをベンチマークした。
さらに、人間による評価も行っており、
1) 大規模事前学習は, クロストーク生成の質を大幅に向上させる。
2) 最高のPLMから生成されたスクリプトでさえ,人間の作成したクロストークの品質は65%に過ぎません。
結論として,大規模PLMを用いてユーモア生成を大幅に改善することができるが,まだ初期段階にある。
データとベンチマークコードは \url{https://github.com/anonno2/crosstalk-generation} で公開されている。
関連論文リスト
- DisGeM: Distractor Generation for Multiple Choice Questions with Span Masking [0.0]
マルチチョイス質問(MCQ)のためのイントラクタ生成のための汎用フレームワークを提案する。
我々のフレームワークは事前訓練された言語モデルのみに依存しており、特定のデータセットに対する追加のトレーニングを必要としない。
人間の評価は、我々のアプローチがより効果的で魅力的であることを示す。
論文 参考訳(メタデータ) (2024-09-26T20:15:46Z) - Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。
本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T08:59:24Z) - Towards a More Inclusive AI: Progress and Perspectives in Large Language Model Training for the Sámi Language [7.289015788793582]
本研究は、S'ami言語における技術参加の増大に焦点を当てている。
我々は,Ultra Low Resource (ULR)言語の言語モデリング問題に対して,MLコミュニティの注目を集めている。
Webから利用可能なS'ami言語リソースをコンパイルして、言語モデルをトレーニングするためのクリーンなデータセットを作成しました。
論文 参考訳(メタデータ) (2024-05-09T13:54:22Z) - Faithful Persona-based Conversational Dataset Generation with Large
Language Models [10.506653172302222]
高品質な会話データセットは、ユーザと通信可能なAIモデルを開発する上で不可欠である。
我々は,会話の質を向上しつつ,初期データセットを拡張するためのGenerator-Criticアーキテクチャフレームワークを提案する。
我々はPersona-Chatからシードされた20万の会話からなるSynthetic-Persona-Chatをリリースする。
論文 参考訳(メタデータ) (2023-12-15T18:23:50Z) - Linking Emergent and Natural Languages via Corpus Transfer [98.98724497178247]
創発言語と自然言語のコーパス転送によるリンクを確立する新しい方法を提案する。
このアプローチでは,言語モデリングとイメージキャプションという,2つの異なるタスクに対して,非自明な転送メリットを示す。
また,同一画像に基づく自然言語キャプションに創発的メッセージを翻訳することで,創発的言語の伝達可能性を予測する新しい指標を提案する。
論文 参考訳(メタデータ) (2022-03-24T21:24:54Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Can Character-based Language Models Improve Downstream Task Performance
in Low-Resource and Noisy Language Scenarios? [0.0]
我々は、ナラビジ(NArabizi)と呼ばれるラテン文字の拡張を用いて書かれた北アフリカ方言のアラビア語に焦点を当てている。
ナラビジの99k文のみを学習し,小さな木バンクで微調整したキャラクタベースモデルは,大規模多言語モデルとモノリンガルモデルで事前学習した同じアーキテクチャで得られたものに近い性能を示す。
論文 参考訳(メタデータ) (2021-10-26T14:59:16Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Investigating Transfer Learning in Multilingual Pre-trained Language
Models through Chinese Natural Language Inference [11.096793445651313]
中国語と英語の自然言語推論(NLI)におけるXLM-Rの言語間移動能力について検討する。
言語移動をより深く理解するために、中国語の課題と敵対課題の4つのカテゴリを作成しました。
英語のNLIで訓練された言語間のモデルが、中国語のタスク間でうまく伝達されていることが分かりました。
論文 参考訳(メタデータ) (2021-06-07T22:00:18Z) - Speaker Independent and Multilingual/Mixlingual Speech-Driven Talking
Head Generation Using Phonetic Posteriorgrams [58.617181880383605]
そこで本研究では,音声後部グラフを用いた新しい手法を提案する。
我々の手法は手作りの特徴を必要とせず、近年の手法に比べてノイズに強い。
本モデルは,複数言語/混合言語音声を説得力のある入力としてサポートした最初のモデルである。
論文 参考訳(メタデータ) (2020-06-20T16:32:43Z) - Style Variation as a Vantage Point for Code-Switching [54.34370423151014]
Code-Switching (CS) は、複数のバイリンガルコミュニティや多言語コミュニティでよく見られる現象である。
両言語間のスタイルのバリエーションとして,CSの新たな特徴点を提示する。
本稿では,第1段階がCSの競合負例を生成し,第2段階がより現実的なCS文を生成する2段階生成逆トレーニング手法を提案する。
論文 参考訳(メタデータ) (2020-05-01T15:53:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。