論文の概要: Unmasking the Factual-Conceptual Gap in Persian Language Models
- arxiv url: http://arxiv.org/abs/2602.17623v1
- Date: Thu, 19 Feb 2026 18:42:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:29.391336
- Title: Unmasking the Factual-Conceptual Gap in Persian Language Models
- Title(参考訳): ペルシア語モデルにおけるFactual-Conceptual Gapの解法
- Authors: Alireza Sakhaeirad, Ali Ma'manpoosh, Arshia Hemmat,
- Abstract要約: 迷信と慣習に焦点をあてたベンチマークであるDivanBenchを導入し、単純な論理的推論に抵抗する任意の文脈依存ルールを紹介した。
我々はペルシャのLLMを7つ評価し、3つの重大な障害を明らかにした。
- 参考スコア(独自算出の注目度): 0.8180770164225369
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While emerging Persian NLP benchmarks have expanded into pragmatics and politeness, they rarely distinguish between memorized cultural facts and the ability to reason about implicit social norms. We introduce DivanBench, a diagnostic benchmark focused on superstitions and customs, arbitrary, context-dependent rules that resist simple logical deduction. Through 315 questions across three task types (factual retrieval, paired scenario verification, and situational reasoning), we evaluate seven Persian LLMs and reveal three critical failures: most models exhibit severe acquiescence bias, correctly identifying appropriate behaviors but failing to reject clear violations; continuous Persian pretraining amplifies this bias rather than improving reasoning, often degrading the model's ability to discern contradictions; and all models show a 21\% performance gap between retrieving factual knowledge and applying it in scenarios. These findings demonstrate that cultural competence requires more than scaling monolingual data, as current models learn to mimic cultural patterns without internalizing the underlying schemas.
- Abstract(参考訳): ペルシャのNLPベンチマークは実用性や礼儀正しく拡張されているが、記憶された文化的事実と暗黙の社会的規範を推論する能力とを区別することは滅多にない。
本稿では,迷信や慣習に焦点をあてた診断ベンチマークであるDivanBenchを紹介した。
3つのタスクタイプ(実例検索、ペアシナリオ検証、状況推論)にわたる315の質問を通じて、私たちは7つのペルシャのLCMを評価し、3つの重要な失敗を明らかにします。ほとんどのモデルは、厳しいアクセプションバイアスを示し、適切な振る舞いを正しく識別するが、明確な違反を拒否しない。
これらの結果は、現在のモデルでは、基礎となるスキーマを内部化することなく、文化的なパターンを模倣することを学ぶため、文化的な能力はモノリンガルデータのスケーリング以上のものを必要としていることを示している。
関連論文リスト
- A Closer Look at Bias and Chain-of-Thought Faithfulness of Large (Vision) Language Models [58.32070787537946]
思考の連鎖(CoT)推論は、大きな言語モデルの性能を高める。
大規模視覚言語モデルにおけるCoT忠実度に関する最初の総合的研究について述べる。
論文 参考訳(メタデータ) (2025-05-29T18:55:05Z) - Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。
モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。
因果関係はこれらの課題を体系的に解決するための 理想的な枠組みを提供します
論文 参考訳(メタデータ) (2025-02-07T17:01:37Z) - Covert Bias: The Severity of Social Views' Unalignment in Language Models Towards Implicit and Explicit Opinion [0.40964539027092917]
過度なバイアスシナリオのエッジケースにおけるバイアスモデルを用いて、ビューに対するバイアスの重症度を評価する。
以上の結果から,暗黙的・明示的な意見の識別において,LLM 性能の相違が明らかとなり,反対意見の明示的な意見に対する偏見の傾向が一般的であった。
非整合モデルの直接的な不注意な反応は、決定性のさらなる洗練の必要性を示唆している。
論文 参考訳(メタデータ) (2024-08-15T15:23:00Z) - SeaEval for Multilingual Foundation Models: From Cross-Lingual Alignment to Cultural Reasoning [44.53966523376327]
SeaEvalは多言語基盤モデルのベンチマークである。
これらのモデルがどのように理解し、自然言語で推論するかを特徴付ける。
また、文化の実践やニュアンス、価値観をいかに理解したかについても検討する。
論文 参考訳(メタデータ) (2023-09-09T11:42:22Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Avoiding Inference Heuristics in Few-shot Prompt-based Finetuning [57.4036085386653]
文ペア分類タスクのプロンプトベースモデルでは,語彙重なりに基づく推論の一般的な落とし穴が依然として残っていることを示す。
そこで,プレトレーニングウェイトを保存する正規化を加えることは,この破壊的な微調整の傾向を緩和するのに有効であることを示す。
論文 参考訳(メタデータ) (2021-09-09T10:10:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。