論文の概要: CC-Riddle: A Question Answering Dataset of Chinese Character Riddles
- arxiv url: http://arxiv.org/abs/2206.13778v1
- Date: Tue, 28 Jun 2022 06:23:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-29 13:00:32.432345
- Title: CC-Riddle: A Question Answering Dataset of Chinese Character Riddles
- Title(参考訳): cc-riddle:漢字の謎の質問応答データセット
- Authors: Fan Xu and Yunxiang Zhang and Xiaojun Wan
- Abstract要約: 一般的な簡体字のほとんどを網羅した漢字解離データセットを提案する。
生成段階では,中国語の音声アルファベットを提供し,生成モデルの解文字の分解と説明を行う。
最終データセットであるCC-Riddleは、人間が書いたリドルとフィルターで生成されたリドルの両方で構成されている。
- 参考スコア(独自算出の注目度): 55.90495852161644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chinese character riddle is a challenging riddle game which takes a single
character as the solution. The riddle describes the pronunciation, shape and
meaning of the solution character with rhetoric techniques. In this paper, we
propose a Chinese character riddle dataset covering the majority of common
simplified Chinese characters by crawling riddles from the Web and generating
brand new ones. In the generation stage, we provide the Chinese phonetic
alphabet, decomposition and explanation of the solution character for the
generation model and get multiple riddle descriptions for each tested
character. Then the generated riddles are manually filtered and the final
dataset, CC-Riddle is composed of both human-written riddles and filtered
generated riddles. Furthermore, we build a character riddle QA system based on
our dataset and find that the existing models struggle to solve such tricky
questions. CC-Riddle is now publicly available.
- Abstract(参考訳): 漢字リドル(英: chinese character riddle)は、一つの文字を解く挑戦的なリドルゲームである。
解法は、解字の発音、形、意味を修辞技法で記述している。
本稿では,web からリドルをクロールし,新しい文字を生成することで,一般的な簡体字の大部分をカバーする漢字リドルデータセットを提案する。
生成段階では,中国語音素アルファベット,生成モデルの解の分解と説明を行い,テストされた各文字について複数の謎記述を得る。
次に生成されたリドルを手動でフィルタリングし、最終的なデータセットであるCC-Riddleは、人書きのリドルとフィルタリングされたリドルの両方で構成されます。
さらに,我々のデータセットをベースとしたキャラクタリザードQAシステムを構築し,既存のモデルがこのような難解な問題を解くのに苦労していることを確かめる。
CC-Riddleは現在公開されている。
関連論文リスト
- Puzzle Pieces Picker: Deciphering Ancient Chinese Characters with Radical Reconstruction [73.26364649572237]
Oracle Bone Inscriptionsは、世界で最も古い書式である。
多くのOracle Bone Inscriptions (OBI) は未解読のままであり、今日の古生物学におけるグローバルな課題の1つとなっている。
本稿では, 急進的再構成によってこれらの謎的文字を解読する新しい手法, Puzzle Pieces Picker (P$3$) を提案する。
論文 参考訳(メタデータ) (2024-06-05T07:34:39Z) - Shuo Wen Jie Zi: Rethinking Dictionaries and Glyphs for Chinese Language
Pre-training [50.100992353488174]
辞書知識と漢字の構造を持つ中国語PLMの意味理解能力を高める新しい学習パラダイムであるCDBERTを紹介する。
我々はCDBERTの2つの中核モジュールを Shuowen と Jiezi と名付け、そこで Shuowen は中国語辞書から最も適切な意味を取り出す過程を指す。
本パラダイムは,従来の中国語PLMのタスク間における一貫した改善を実証する。
論文 参考訳(メタデータ) (2023-05-30T05:48:36Z) - Down and Across: Introducing Crossword-Solving as a New NLP Benchmark [11.194615436370507]
25年にわたるニューヨーク・タイムズの日刊クロスワードから収集したクロスワードパズルのコーパスの仕様を公表する。
これらのパズルには、歴史的、事実的、単語の意味、同義語/匿名、補足語、略語、接頭辞/接頭辞、単語プレイ、言語横断の様々な手がかりが含まれている。
論文 参考訳(メタデータ) (2022-05-20T21:16:44Z) - "Is Whole Word Masking Always Better for Chinese BERT?": Probing on
Chinese Grammatical Error Correction [58.40808660657153]
我々は,中国語のBERTにおいて,単語マスキング(WWM)が文脈理解能力の向上につながるかどうかを検討する。
我々は10,448文で19,075トークンのラベルを含むデータセットを構築した。
標準文字レベルマスキング(CLM)、WWM、CLMとWWMを組み合わせた3つの中国のBERTモデルを訓練する。
論文 参考訳(メタデータ) (2022-03-01T08:24:56Z) - BiRdQA: A Bilingual Dataset for Question Answering on Tricky Riddles [82.63394952538292]
バイリンガル質問応答データセットであるBiRdQAを導入する。
既存のモノリンガルQAモデルとマルチリンガルQAモデルは、我々のデータセットではうまく機能せず、機械が難解な謎を解くために人間を倒すには長い道のりがあることを示している。
論文 参考訳(メタデータ) (2021-09-23T00:46:47Z) - CCPM: A Chinese Classical Poetry Matching Dataset [50.90794811956129]
本稿では,詩のマッチングによるモデルの意味的理解を評価するための新しい課題を提案する。
この課題は、現代漢訳の漢詩では、4人の候補者の中から1行の漢詩を選ばなければならない。
このデータセットを構築するために、まず中国古典詩と現代中国語の翻訳の並列データを得る。
論文 参考訳(メタデータ) (2021-06-03T16:49:03Z) - Read, Listen, and See: Leveraging Multimodal Information Helps Chinese
Spell Checking [20.74049189959078]
本稿では,漢字のマルチモーダル情報を直接活用して,ReaLiSeという中国語スペルチェッカーを提案する。
ReaLiSeは、(1)入力文字のセマンティック、音声、グラフィック情報をキャプチャし、(2)これらのモダリティに情報を混ぜて正しい出力を予測することによって、CSCタスクをモデル化する。
SIGHANベンチマークの実験では、提案されたモデルは大きなマージンで強いベースラインを上回ります。
論文 参考訳(メタデータ) (2021-05-26T02:38:11Z) - RiddleSense: Answering Riddle Questions as Commonsense Reasoning [35.574564653690594]
RiddleSenseは、高階コモンセンス推論モデルをベンチマークするための新しい複数選択質問回答チャレンジである。
riddlesenseは、リドルスタイルのコモンセンス質問応答のための、最初の大規模なデータセットである。
我々は,様々な推論モデルを体系的に評価し,最高の教師付きモデルと人間のパフォーマンスの間には大きなギャップがあることを指摘した。
論文 参考訳(メタデータ) (2021-01-02T05:28:15Z) - CalliGAN: Style and Structure-aware Chinese Calligraphy Character
Generator [6.440233787863018]
書道(きゅうりょう)とは、筆で行う芸術形式としての漢字の書法である。
近年の研究では、1つのモデルを用いて複数のスタイルのイメージ・ツー・イメージ翻訳によって漢字を生成することができることが示されている。
そこで本研究では,漢字の成分情報をモデルに組み込んだ新しい手法を提案する。
論文 参考訳(メタデータ) (2020-05-26T03:15:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。