論文の概要: Chengyu-Bench: Benchmarking Large Language Models for Chinese Idiom Understanding and Use
- arxiv url: http://arxiv.org/abs/2506.18105v1
- Date: Sun, 22 Jun 2025 17:26:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.751284
- Title: Chengyu-Bench: Benchmarking Large Language Models for Chinese Idiom Understanding and Use
- Title(参考訳): Chengyu-Bench: 中国語のイディオム理解と使用のための大規模言語モデルのベンチマーク
- Authors: Yicheng Fu, Zhemin Huang, Liuxin Yang, Yumeng Lu, Zhongdongming Dai,
- Abstract要約: チェンギュ・ベンチ(Chengyu-Bench)は、様々なコーパスから得られた1,765個の共通イディオムをカバーする2,937個の人間認証例からなる。
先行するLCMを評価し,95%以上の精度で評価するが,Open Clozeの精度は85%,トップ1の精度は40%に過ぎなかった。
Chengyu-Bench は LLM がイディオムの感情を確実に評価できる一方で、適切な使用に欠かせない文化的・文脈的なニュアンスを理解するのに苦慮していることを示した。
- 参考スコア(独自算出の注目度): 1.5129424416840094
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chinese idioms (Chengyu) are concise four-character expressions steeped in history and culture, whose literal translations often fail to capture their full meaning. This complexity makes them challenging for language models to interpret and use correctly. Existing benchmarks focus on narrow tasks - multiple-choice cloze tests, isolated translation, or simple paraphrasing. We introduce Chengyu-Bench, a comprehensive benchmark featuring three tasks: (1) Evaluative Connotation, classifying idioms as positive or negative; (2) Appropriateness, detecting incorrect idiom usage in context; and (3) Open Cloze, filling blanks in longer passages without options. Chengyu-Bench comprises 2,937 human-verified examples covering 1,765 common idioms sourced from diverse corpora. We evaluate leading LLMs and find they achieve over 95% accuracy on Evaluative Connotation, but only ~85% on Appropriateness and ~40% top-1 accuracy on Open Cloze. Error analysis reveals that most mistakes arise from fundamental misunderstandings of idiom meanings. Chengyu-Bench demonstrates that while LLMs can reliably gauge idiom sentiment, they still struggle to grasp the cultural and contextual nuances essential for proper usage. The benchmark and source code are available at: https://github.com/sofyc/ChengyuBench.
- Abstract(参考訳): 中国の慣用句(Chengyu)は、歴史や文化において四文字の簡潔な表現であり、その文字通りの翻訳は、その完全な意味をつかむのに失敗することが多い。
この複雑さは、言語モデルが正しく解釈し、使用することを困難にしている。
既存のベンチマークでは、複数の選択クローゼテスト、独立した翻訳、単純なパラフレーズなど、狭いタスクに重点を置いている。
そこで我々は,(1)評価的意味,イディオムを肯定的あるいは否定的なものに分類する,(2)不正確なイディオムを文脈で検出する,(3)空白を選択肢のない長い通路に埋める,という3つのタスクを包括的ベンチマークとしてChengyu-Benchを紹介した。
チェンギュ・ベンチ(Chengyu-Bench)は、様々なコーパスから得られた1,765個の共通イディオムをカバーする2,937個の人間認証例からなる。
主要なLCMを評価し,95%以上の精度で評価するが,Open Clozeでは85%程度,上位1の精度で40%程度しか評価できない。
誤り分析は、ほとんどの誤りはイディオムの意味の基本的な誤解から生じることを示している。
Chengyu-Bench は LLM がイディオムの感情を確実に評価できる一方で、適切な使用に欠かせない文化的・文脈的なニュアンスを理解するのに苦慮していることを示した。
ベンチマークとソースコードは、https://github.com/sofyc/ChengyuBench.comで公開されている。
関連論文リスト
- SlangDIT: Benchmarking LLMs in Interpretative Slang Translation [89.48208612476068]
本稿では,スラング翻訳タスク(SlangDIT)を紹介する。
言語間スラング検出、言語間スラング説明、現在のコンテキスト内のスラング翻訳の3つのサブタスクで構成されている。
まず、文にスラングが含まれているかどうかを識別し、スラングが多義的かどうかを判断し、その意味を解析する。
論文 参考訳(メタデータ) (2025-05-20T10:37:34Z) - Improving LLM Abilities in Idiomatic Translation [2.8692611791027893]
NLLBやGPTのような言語モデル(LLM)では、イディオムの翻訳は依然として難しい課題である。
我々のゴールは、慣用的な言語のLLM処理を改善することで、翻訳の忠実度を高めることである。
文化的なニュアンスを維持し、翻訳されたテキストが意図と感情の共鳴を維持することを保証するため、これは大きな社会的影響を持つ。
論文 参考訳(メタデータ) (2024-07-03T21:34:26Z) - That was the last straw, we need more: Are Translation Systems Sensitive
to Disambiguating Context? [64.38544995251642]
我々は、源泉に存在している意味的あいまいさ(本研究における英語)について研究する。
我々は、リテラルと図形の両方にオープンなイディオムに焦点を当てている。
現在のMTモデルは、たとえ文脈が比喩的解釈を示しているとしても、英語のイディオムを文字通りに翻訳する。
論文 参考訳(メタデータ) (2023-10-23T06:38:49Z) - Crossing the Threshold: Idiomatic Machine Translation through Retrieval
Augmentation and Loss Weighting [66.02718577386426]
慣用的な翻訳と関連する問題を簡易に評価する。
我々は,変圧器をベースとした機械翻訳モデルが慣用的な翻訳に対して正しくデフォルトとなる点を明らかにするための合成実験を行った。
自然慣用句の翻訳を改善するために, 単純かつ効果的な2つの手法を導入する。
論文 参考訳(メタデータ) (2023-10-10T23:47:25Z) - We're Afraid Language Models Aren't Modeling Ambiguity [136.8068419824318]
あいまいさの管理は人間の言語理解の重要な部分です。
文中のあいまいさは,他の文との係り受け関係に与える影響によって特徴付けられる。
我々は,多ラベルNLIモデルが曖昧さによって誤解を招く野生の政治的主張にフラグを付けることができることを示す。
論文 参考訳(メタデータ) (2023-04-27T17:57:58Z) - Synonym Knowledge Enhanced Reader for Chinese Idiom Reading
Comprehension [22.25730077173127]
機械読解(英: Machine reading comprehension、MRC)とは、機械が与えられた文脈に基づいて質問に答えるよう求めるタスクである。
まず,中国語の慣用句の意味的意味と意味的意味の整合性を測定するために,リテラルの意味包含という概念を定義した。
同義語関係を完全に活用するために、同義語知識強化読解器を提案する。
大規模な中国語イディオム読解データセットであるChIDの実験結果から,我々のモデルが最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2020-11-09T15:28:53Z) - A BERT-based Dual Embedding Model for Chinese Idiom Prediction [8.903106634925853]
中国語のイディオム予測タスクは、空白のある文脈で与えられた候補イディオムの集合から正しいイディオムを選択することである。
本稿では,単語の文脈を符号化し,イディオムの二重埋め込みを学習するためのBERTベースの二重埋め込みモデルを提案する。
論文 参考訳(メタデータ) (2020-11-04T16:12:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。