論文の概要: CC-Riddle: A Question Answering Dataset of Chinese Character Riddles
- arxiv url: http://arxiv.org/abs/2206.13778v2
- Date: Sun, 24 Sep 2023 05:15:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 05:03:38.172170
- Title: CC-Riddle: A Question Answering Dataset of Chinese Character Riddles
- Title(参考訳): cc-riddle:漢字の謎の質問応答データセット
- Authors: Fan Xu and Yunxiang Zhang and Xiaojun Wan
- Abstract要約: 漢字のリドルは、中国語特有の文化芸能の一形態である。
CC-Riddle という名前の textbf Chinese textbfCharacter riddle データセットを構築した。
- 参考スコア(独自算出の注目度): 51.41044750575767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Chinese character riddle is a unique form of cultural entertainment
specific to the Chinese language. It typically comprises two parts: the riddle
description and the solution. The solution to the riddle is a single character,
while the riddle description primarily describes the glyph of the solution,
occasionally supplemented with its explanation and pronunciation. Solving
Chinese character riddles is a challenging task that demands understanding of
character glyph, general knowledge, and a grasp of figurative language. In this
paper, we construct a \textbf{C}hinese \textbf{C}haracter riddle dataset named
CC-Riddle, which covers the majority of common simplified Chinese characters.
The construction process is a combination of web crawling, language model
generation and manual filtering. In generation stage, we input the Chinese
phonetic alphabet, glyph and meaning of the solution character into the
generation model, which then produces multiple riddle descriptions. The
generated riddles are then manually filtered and the final CC-Riddle dataset is
composed of both human-written riddles and these filtered, generated riddles.
In order to assess the performance of language models on the task of solving
character riddles, we use retrieval-based, generative and multiple-choice QA
strategies to test three language models: BERT, ChatGPT and ChatGLM. The test
results reveal that current language models still struggle to solve Chinese
character riddles. CC-Riddle is publicly available at
\url{https://github.com/pku0xff/CC-Riddle}.
- Abstract(参考訳): 漢字リドル(英: chinese character riddle)は、中国語特有の文化芸能の一種である。
典型的には、謎の説明と解の2つの部分からなる。
謎の解法は単一の文字であり、謎の解法の記述は解法のグリフを主に記述し、時にはその説明と発音を補う。
漢字の謎を解くことは、文字のグリフ、一般的な知識、そして比喩的な言語を理解することを要求する難しい課題である。
本稿では, CC-Riddle という, 簡体字のほとんどを網羅した, テキストbf{C}hinese \textbf{C}haracter riddle データセットを構築した。
構築プロセスは、Webクローリング、言語モデル生成、手動フィルタリングの組み合わせである。
生成段階では,中国語の音韻アルファベット,グリフ,および解文字の意味を生成モデルに入力し,複数の滑稽な記述を生成する。
生成されたリドルは手動でフィルタリングされ、最終CC-Riddleデータセットは、人書きのリドルと、このフィルターで生成されたリドルの両方で構成されている。
文字の謎を解くタスクにおいて,言語モデルの性能を評価するために,検索ベース,生成型および複数選択型QA戦略を用いて,BERT,ChatGPT,ChatGLMの3つの言語モデルをテストする。
その結果、現在の言語モデルは漢字の謎を解くのに苦戦していることがわかった。
CC-Riddle は \url{https://github.com/pku0xff/CC-Riddle} で公開されている。
関連論文リスト
- Puzzle Pieces Picker: Deciphering Ancient Chinese Characters with Radical Reconstruction [73.26364649572237]
Oracle Bone Inscriptionsは、世界で最も古い書式である。
多くのOracle Bone Inscriptions (OBI) は未解読のままであり、今日の古生物学におけるグローバルな課題の1つとなっている。
本稿では, 急進的再構成によってこれらの謎的文字を解読する新しい手法, Puzzle Pieces Picker (P$3$) を提案する。
論文 参考訳(メタデータ) (2024-06-05T07:34:39Z) - Shuo Wen Jie Zi: Rethinking Dictionaries and Glyphs for Chinese Language
Pre-training [50.100992353488174]
辞書知識と漢字の構造を持つ中国語PLMの意味理解能力を高める新しい学習パラダイムであるCDBERTを紹介する。
我々はCDBERTの2つの中核モジュールを Shuowen と Jiezi と名付け、そこで Shuowen は中国語辞書から最も適切な意味を取り出す過程を指す。
本パラダイムは,従来の中国語PLMのタスク間における一貫した改善を実証する。
論文 参考訳(メタデータ) (2023-05-30T05:48:36Z) - Down and Across: Introducing Crossword-Solving as a New NLP Benchmark [11.194615436370507]
25年にわたるニューヨーク・タイムズの日刊クロスワードから収集したクロスワードパズルのコーパスの仕様を公表する。
これらのパズルには、歴史的、事実的、単語の意味、同義語/匿名、補足語、略語、接頭辞/接頭辞、単語プレイ、言語横断の様々な手がかりが含まれている。
論文 参考訳(メタデータ) (2022-05-20T21:16:44Z) - "Is Whole Word Masking Always Better for Chinese BERT?": Probing on
Chinese Grammatical Error Correction [58.40808660657153]
我々は,中国語のBERTにおいて,単語マスキング(WWM)が文脈理解能力の向上につながるかどうかを検討する。
我々は10,448文で19,075トークンのラベルを含むデータセットを構築した。
標準文字レベルマスキング(CLM)、WWM、CLMとWWMを組み合わせた3つの中国のBERTモデルを訓練する。
論文 参考訳(メタデータ) (2022-03-01T08:24:56Z) - BiRdQA: A Bilingual Dataset for Question Answering on Tricky Riddles [82.63394952538292]
バイリンガル質問応答データセットであるBiRdQAを導入する。
既存のモノリンガルQAモデルとマルチリンガルQAモデルは、我々のデータセットではうまく機能せず、機械が難解な謎を解くために人間を倒すには長い道のりがあることを示している。
論文 参考訳(メタデータ) (2021-09-23T00:46:47Z) - CCPM: A Chinese Classical Poetry Matching Dataset [50.90794811956129]
本稿では,詩のマッチングによるモデルの意味的理解を評価するための新しい課題を提案する。
この課題は、現代漢訳の漢詩では、4人の候補者の中から1行の漢詩を選ばなければならない。
このデータセットを構築するために、まず中国古典詩と現代中国語の翻訳の並列データを得る。
論文 参考訳(メタデータ) (2021-06-03T16:49:03Z) - Read, Listen, and See: Leveraging Multimodal Information Helps Chinese
Spell Checking [20.74049189959078]
本稿では,漢字のマルチモーダル情報を直接活用して,ReaLiSeという中国語スペルチェッカーを提案する。
ReaLiSeは、(1)入力文字のセマンティック、音声、グラフィック情報をキャプチャし、(2)これらのモダリティに情報を混ぜて正しい出力を予測することによって、CSCタスクをモデル化する。
SIGHANベンチマークの実験では、提案されたモデルは大きなマージンで強いベースラインを上回ります。
論文 参考訳(メタデータ) (2021-05-26T02:38:11Z) - RiddleSense: Answering Riddle Questions as Commonsense Reasoning [35.574564653690594]
RiddleSenseは、高階コモンセンス推論モデルをベンチマークするための新しい複数選択質問回答チャレンジである。
riddlesenseは、リドルスタイルのコモンセンス質問応答のための、最初の大規模なデータセットである。
我々は,様々な推論モデルを体系的に評価し,最高の教師付きモデルと人間のパフォーマンスの間には大きなギャップがあることを指摘した。
論文 参考訳(メタデータ) (2021-01-02T05:28:15Z) - CalliGAN: Style and Structure-aware Chinese Calligraphy Character
Generator [6.440233787863018]
書道(きゅうりょう)とは、筆で行う芸術形式としての漢字の書法である。
近年の研究では、1つのモデルを用いて複数のスタイルのイメージ・ツー・イメージ翻訳によって漢字を生成することができることが示されている。
そこで本研究では,漢字の成分情報をモデルに組み込んだ新しい手法を提案する。
論文 参考訳(メタデータ) (2020-05-26T03:15:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。