論文の概要: CFunModel: A "Funny" Language Model Capable of Chinese Humor Generation and Processing
- arxiv url: http://arxiv.org/abs/2503.20417v1
- Date: Wed, 26 Mar 2025 10:44:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:21:00.003114
- Title: CFunModel: A "Funny" Language Model Capable of Chinese Humor Generation and Processing
- Title(参考訳): CFunModel:中国語のHummor生成と処理が可能な"ファニー"言語モデル
- Authors: Zhenghan Yu, Xinyu Hu, Xiaojun Wan,
- Abstract要約: 中国におけるユーモア関連データセット「CFunSet」について紹介する。
このデータセットは、既存の中国のユーモアデータセットを集約し、Tieba-JokeBarから集めた2万以上のジョークを含んでいる。
我々は,中国における様々なユーモア関連タスクを扱うために設計された最初の大規模言語モデルである中国語ファンモデル(CFunModel)を開発した。
- 参考スコア(独自算出の注目度): 40.17823569905232
- License:
- Abstract: Humor plays a significant role in daily language communication. With the rapid development of large language models (LLMs), natural language processing has made significant strides in understanding and generating various genres of texts. However, most LLMs exhibit poor performance in generating and processing Chinese humor. In this study, we introduce a comprehensive Chinese humor-related dataset, the Chinese Fun Set (CFunSet). This dataset aggregates existing Chinese humor datasets and includes over 20,000 jokes collected from Tieba-JokeBar, a Chinese online platform known for joke sharing. The resulting corpus comprises more than 160,000 entries. Leveraging CFunSet, we developed the Chinese Fun Model (CFunModel), the first large language model designed to handle various Chinese humor-related tasks including Crosstalk Response Selection, Humor Recognition, Joke Generation, etc. Experimental results demonstrate that CFunModel outperforms popular large language models in these tasks. Our CFunSet is available at https://huggingface.co/datasets/ZhenghanYU/CFunSet and CFunModel is available at https://huggingface.co/ZhenghanYU/CFunModel. A demostration video of our work is available at https://youtu.be/MOsISOJ66Ms.
- Abstract(参考訳): 毎日の言語コミュニケーションにおいて、噂は重要な役割を担っている。
大規模言語モデル(LLM)の急速な発展に伴い、自然言語処理は様々なジャンルのテキストの理解と生成において大きな進歩を遂げた。
しかし、ほとんどのLLMは中国のユーモアの生成と処理において性能が劣っている。
本研究では,中国のユーモア関連データセットであるCFunSetを紹介する。
このデータセットは、既存の中国のユーモアデータセットを集約し、ジョーク共有で知られる中国のオンラインプラットフォームであるTieba-JokeBarから収集された2万以上のジョークを含んでいる。
結果のコーパスは160,000以上のエントリから構成される。
CFunSetを活用することで,Crosstalk Response Selection, Humor Recognition, Joke Generationなど,中国のユーモア関連タスクを扱うために設計された,最初の大規模言語モデルであるChina Fun Model(CFunModel)を開発した。
実験の結果、CFunModelはこれらのタスクで一般的な大言語モデルよりも優れていることが示された。
私たちのCFunSetはhttps://huggingface.co/datasets/ZhenghanYU/CFunSetで、CFunModelはhttps://huggingface.co/ZhenghanYU/CFunModelで利用可能です。
私たちの作業のデモビデオはhttps://youtu.be/MOsISOJ66Msで公開されています。
関連論文リスト
- Can Pre-trained Language Models Understand Chinese Humor? [74.96509580592004]
本論文は,事前学習言語モデル(PLM)のユーモア理解能力を体系的に研究する最初の論文である。
提案した評価フレームワークのすべてのデータ要件を完全に満たす中国の総合的ユーモアデータセットを構築した。
中国のユーモアデータセットに関する実証的研究は、ユーモア理解と生成におけるPLMの将来の最適化に非常に役立つ貴重な観察結果をもたらす。
論文 参考訳(メタデータ) (2024-07-04T18:13:38Z) - Dynamic data sampler for cross-language transfer learning in large language models [34.464472766868106]
ChatFlowは、言語間移動に基づく大規模言語モデル(LLM)である。
我々は、LLaMA2モデルを継続的に訓練するために、中国語、英語、並列コーパスを組み合わせています。
実験により,本手法はモデル収束を加速し,優れた性能を実現することを示す。
論文 参考訳(メタデータ) (2024-05-17T08:40:51Z) - Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages [76.35234803589412]
MPMは、英語以外の言語で大規模なマルチモーダルモデルを訓練するための効果的な訓練パラダイムである。
画像・テキスト・テキスト・画像生成における大規模なマルチモーダルモデルVisCPMを構築し,中国語の最先端(オープンソース)性能を実現する。
論文 参考訳(メタデータ) (2023-08-23T09:55:41Z) - Efficient Cross-Lingual Transfer for Chinese Stable Diffusion with
Images as Pivots [80.32906566894171]
英語の安定拡散を中国語に伝達する簡易かつ効果的な方法であるIAPを提案する。
IAPは、CLIPの埋め込み空間における中国語、英語、視覚的意味論の接続を効率的に確立する。
実験結果から,本手法は,5%のトレーニングデータしか持たない強い中国拡散モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-05-19T09:20:27Z) - Can Language Models Make Fun? A Case Study in Chinese Comical Crosstalk [12.349133310758562]
自然言語生成が人間のようにユーモアを発生させるかどうかを予備的に検証することを目的としている。
我々は,Scratch Seq2seq,微調整中規模PLM,大規模PLMなど,様々な世代のアプローチをベンチマークする。
結論として,大規模PLMを用いてユーモア生成を大幅に改善することができるが,まだ初期段階にある。
論文 参考訳(メタデータ) (2022-07-02T04:30:07Z) - CINO: A Chinese Minority Pre-trained Language Model [30.447739293695026]
中国語マイノリティ事前学習言語モデル(CINO)を提案する。
標準中国語、カントン諸語、その他の6つの少数言語をカバーしている。
論文 参考訳(メタデータ) (2022-02-28T06:02:06Z) - Investigating Transfer Learning in Multilingual Pre-trained Language
Models through Chinese Natural Language Inference [11.096793445651313]
中国語と英語の自然言語推論(NLI)におけるXLM-Rの言語間移動能力について検討する。
言語移動をより深く理解するために、中国語の課題と敵対課題の4つのカテゴリを作成しました。
英語のNLIで訓練された言語間のモデルが、中国語のタスク間でうまく伝達されていることが分かりました。
論文 参考訳(メタデータ) (2021-06-07T22:00:18Z) - Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese
Pre-trained Language Models [62.41139712595334]
中国語のための新しい事前学習パラダイムであるLattice-BERTを提案する。
文中の文字や単語から格子グラフを構築し、これらすべてのテキスト単位をトランスフォーマーに供給します。
本モデルが12層設定で平均1.5%の増加をもたらすことを示した。
論文 参考訳(メタデータ) (2021-04-15T02:36:49Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。