論文の概要: Beyond Understanding: Evaluating the Pragmatic Gap in LLMs' Cultural Processing of Figurative Language
- arxiv url: http://arxiv.org/abs/2510.23828v1
- Date: Mon, 27 Oct 2025 20:13:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.507663
- Title: Beyond Understanding: Evaluating the Pragmatic Gap in LLMs' Cultural Processing of Figurative Language
- Title(参考訳): 理解を超えて:LLMの言語文化処理における実践的ギャップの評価
- Authors: Mena Attia, Aashiq Muhamed, Mai Alkhamissi, Thamar Solorio, Mona Diab,
- Abstract要約: 我々は、文化的基盤言語を処理するために、大規模言語モデル(LLM)を評価する。
我々は、文脈理解、実践的使用、解釈のための評価タスクを設計する。
Kinayatはエジプトのアラビア語のイディオムの最初のデータセットで、比喩的理解と実用的利用の評価の両方のために設計されている。
- 参考スコア(独自算出の注目度): 14.738616767895286
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a comprehensive evaluation of the ability of large language models (LLMs) to process culturally grounded language, specifically to understand and pragmatically use figurative expressions that encode local knowledge and cultural nuance. Using figurative language as a proxy for cultural nuance and local knowledge, we design evaluation tasks for contextual understanding, pragmatic use, and connotation interpretation in Arabic and English. We evaluate 22 open- and closed-source LLMs on Egyptian Arabic idioms, multidialectal Arabic proverbs, and English proverbs. Our results show a consistent hierarchy: the average accuracy for Arabic proverbs is 4.29% lower than for English proverbs, and performance for Egyptian idioms is 10.28% lower than for Arabic proverbs. For the pragmatic use task, accuracy drops by 14.07% relative to understanding, though providing contextual idiomatic sentences improves accuracy by 10.66%. Models also struggle with connotative meaning, reaching at most 85.58% agreement with human annotators on idioms with 100% inter-annotator agreement. These findings demonstrate that figurative language serves as an effective diagnostic for cultural reasoning: while LLMs can often interpret figurative meaning, they face challenges in using it appropriately. To support future research, we release Kinayat, the first dataset of Egyptian Arabic idioms designed for both figurative understanding and pragmatic use evaluation.
- Abstract(参考訳): 本稿では,局所的な知識と文化的ニュアンスを符号化した図形表現の理解と実践的利用を目的として,大規模言語モデル(LLM)による文化的基盤言語処理能力の包括的評価を行う。
文化的ニュアンスと地域知識の代用として図形言語を用いて,アラビア語と英語の文脈理解,実践的使用,意味解釈のための評価タスクを設計する。
エジプトのアラビア語のイディオム,多方言のアラビア語の証明,英語の証明に対して,22のオープンソースとクローズドソースのLSMを評価した。
アラビア語の慣用句の平均精度は英語の慣用句よりも4.29%低く、エジプト語の慣用句のパフォーマンスはアラビア語の慣用句より10.28%低い。
実用的使用タスクでは、理解に対して精度が14.07%低下するが、文脈的慣用文を提供することで精度が10.66%向上する。
モデルもまた意味論に苦慮しており、人間アノテーターと100%のアノテーター合意を持つイディオム上で85.58%の合意に達した。
これらの知見は、図形言語が文化的推論の効果的な診断に有効であることを示している: LLMは図形的意味を解釈することが多いが、適切に使用する上での課題に直面している。
今後の研究を支援するため,エジプトのアラビア語イディオムの最初のデータセットであるキナヤト(Kinayat)を公表した。
関連論文リスト
- From Polyester Girlfriends to Blind Mice: Creating the First Pragmatics Understanding Benchmarks for Slovene [0.12277343096128711]
我々はSloPragEvalとSloPragMegaを紹介した。
本稿では,翻訳の難しさについて論じ,人間のベースラインを確立するためのキャンペーンについて述べるとともに,パイロット評価をLCMで報告する。
以上の結果から,現在のモデルではニュアンス言語理解が大幅に改善されているものの,非文節発話におけるインプリート話者の意味を推測できない可能性が示唆された。
論文 参考訳(メタデータ) (2025-10-24T15:43:42Z) - Absher: A Benchmark for Evaluating Large Language Models Understanding of Saudi Dialects [0.1499944454332829]
textttAbsherは6つの異なるカテゴリにまたがる18,000以上の多重選択質問で構成されている。
これらの質問は、サウジアラビアの様々な地域から派生した方言の単語、フレーズ、証明のデータセットから導かれる。
我々は,多言語およびアラビア語固有のモデルを含む,最先端のLLMを評価した。
論文 参考訳(メタデータ) (2025-07-14T12:33:07Z) - Fann or Flop: A Multigenre, Multiera Benchmark for Arabic Poetry Understanding in LLMs [32.247169514152425]
EmphFannまたはFlopは、アラビア語詩の理解を大規模言語モデルで評価するための最初のベンチマークである。
このベンチマークは、意味的理解、比喩的解釈、韻律的認識、文化的文脈を評価するための説明付き詩のコーパスで構成されている。
論文 参考訳(メタデータ) (2025-05-23T17:59:29Z) - Jawaher: A Multidialectal Dataset of Arabic Proverbs for LLM Benchmarking [12.078532717928185]
大型言語モデル(LLM)は、西洋文化、アングロ・セントリック文化、アメリカ文化への偏見を示し続けている。
我々は、アラビア語の証明を理解し解釈するLLMの能力を評価するために設計されたベンチマークであるJawaherを紹介する。
LLMは慣用的に正確な翻訳を生成できるが、文化的にニュアンスで文脈的に関係のある説明を生み出すのに苦労している。
論文 参考訳(メタデータ) (2025-02-28T22:28:00Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - Are Multilingual LLMs Culturally-Diverse Reasoners? An Investigation into Multicultural Proverbs and Sayings [73.48336898620518]
大規模言語モデル (LLM) は質問への回答や推論に非常に適している。
本研究は,多言語多言語LLMの会話文脈における証明や言説の推論能力について考察する。
論文 参考訳(メタデータ) (2023-09-15T17:45:28Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - We're Afraid Language Models Aren't Modeling Ambiguity [136.8068419824318]
あいまいさの管理は人間の言語理解の重要な部分です。
文中のあいまいさは,他の文との係り受け関係に与える影響によって特徴付けられる。
我々は,多ラベルNLIモデルが曖昧さによって誤解を招く野生の政治的主張にフラグを付けることができることを示す。
論文 参考訳(メタデータ) (2023-04-27T17:57:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。