論文の概要: When Abundance Conceals Weakness: Knowledge Conflict in Multilingual Models
- arxiv url: http://arxiv.org/abs/2601.07041v1
- Date: Sun, 11 Jan 2026 19:26:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.131819
- Title: When Abundance Conceals Weakness: Knowledge Conflict in Multilingual Models
- Title(参考訳): 単語の不一致が弱さを損なうとき--多言語モデルにおける知識衝突
- Authors: Jiaqi Zhao, Qiang Huang, Haodong Chen, Xiaoxing You, Jun Yu,
- Abstract要約: 大規模言語モデルは、多言語にわたる広大な世界の知識を符号化するが、その内的信念は、しばしば言語空間に不均一に分散される。
CLEARはコンフリクト解決を、多言語パラメトリック推論から競合するマルチソース誘導までの4つの進歩的なシナリオに分解する。
推論集約的なタスクでは、コンフリクト解決は言語資源に支配され、高リソース言語は強い説得力を発揮する。
- 参考スコア(独自算出の注目度): 18.969784662298174
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) encode vast world knowledge across multiple languages, yet their internal beliefs are often unevenly distributed across linguistic spaces. When external evidence contradicts these language-dependent memories, models encounter \emph{cross-lingual knowledge conflict}, a phenomenon largely unexplored beyond English-centric settings. We introduce \textbf{CLEAR}, a \textbf{C}ross-\textbf{L}ingual knowl\textbf{E}dge conflict ev\textbf{A}luation f\textbf{R}amework that systematically examines how multilingual LLMs reconcile conflicting internal beliefs and multilingual external evidence. CLEAR decomposes conflict resolution into four progressive scenarios, from multilingual parametric elicitation to competitive multi-source cross-lingual induction, and systematically evaluates model behavior across two complementary QA benchmarks with distinct task characteristics. We construct multilingual versions of ConflictQA and ConflictingQA covering 10 typologically diverse languages and evaluate six representative LLMs. Our experiments reveal a task-dependent decision dichotomy. In reasoning-intensive tasks, conflict resolution is dominated by language resource abundance, with high-resource languages exerting stronger persuasive power. In contrast, for entity-centric factual conflicts, linguistic affinity, not resource scale, becomes decisive, allowing low-resource but linguistically aligned languages to outperform distant high-resource ones.
- Abstract(参考訳): 大規模言語モデル(LLM)は、複数の言語にまたがる広大な世界の知識を符号化するが、その内部の信念は言語空間に不均一に分散することが多い。
外部のエビデンスがこれらの言語に依存した記憶と矛盾する場合、モデルは英語中心の設定を超えて探索されていない現象である 'emph{cross-lingual knowledge conflict} に遭遇する。
我々は、内的信念や多言語外的証拠と矛盾する多言語 LLM がどのように一致しているかを体系的に調べる体系的に検討する、textbf{CLEAR}, a \textbf{C}ross-\textbf{L}ingual knowl\textbf{E}dge conflict ev\textbf{A}luation f\textbf{R}ameworkを紹介する。
CLEARはコンフリクト解決を、多言語パラメトリック推論から競合的多言語間誘導までの4つの段階的なシナリオに分解し、異なるタスク特性を持つ2つの相補的なQAベンチマークでモデル挙動を体系的に評価する。
そこで本研究では,10言語を多言語でカバーするConflictQAとConflictingQAの多言語版を構築し,6つの代表LLMを評価した。
我々の実験はタスク依存の意思決定の切り離しを明らかにした。
推論集約的なタスクでは、コンフリクト解決は言語資源に支配され、高リソース言語は強い説得力を発揮する。
対照的に、エンティティ中心の事実紛争においては、資源規模ではなく言語親和性は決定的となり、低リソースだが言語的に整合した言語は、遠方の高リソース言語よりも優れている。
関連論文リスト
- Language Matters: How Do Multilingual Input and Reasoning Paths Affect Large Reasoning Models? [59.970391602080205]
多言語トレーニングにも拘わらず、LRMはテスト時に高リソース言語での推論をデフォルトとする傾向にある。
文化的推論は、推論タスクのパフォーマンスを低下させるが、文化的なタスクに恩恵を与える一方、安全性評価は言語固有の振る舞いを示す。
論文 参考訳(メタデータ) (2025-05-23T02:46:18Z) - Mechanistic Understanding and Mitigation of Language Confusion in English-Centric Large Language Models [56.61984030508691]
言語混乱に関する最初の機械論的解釈可能性研究について述べる。
混乱点(CP)がこの現象の中心であることを示す。
比較分析によって同定された少数の臨界ニューロンを多言語で調整したニューロンで編集すると、混乱が著しく軽減されることがわかった。
論文 参考訳(メタデータ) (2025-05-22T11:29:17Z) - When Less Language is More: Language-Reasoning Disentanglement Makes LLMs Better Multilingual Reasoners [111.50503126693444]
言語固有のアブレーションは多言語推論性能を継続的に向上させることを示す。
トレーニング後のアブレーションと比較して、トレーニング不要のアブレーションは、計算オーバーヘッドを最小限に抑えながら、同等または優れた結果が得られる。
論文 参考訳(メタデータ) (2025-05-21T08:35:05Z) - Cross-linguistic disagreement as a conflict of semantic alignment norms in multilingual AI~Linguistic Diversity as a Problem for Philosophy, Cognitive Science, and AI~ [0.2443066828522608]
言語間の整合性(CL整合性)は言語間の普遍的な概念を求める。
言語固有の意味規範を尊重する民族一貫性。
普遍表現と言語間移動能力が本質的に望ましいという仮定を見つける。
論文 参考訳(メタデータ) (2025-03-01T03:31:40Z) - Assessing Agentic Large Language Models in Multilingual National Bias [31.67058518564021]
推論に基づくレコメンデーションにおける言語間の格差はほとんど未解明のままである。
この研究は、このギャップに最初に対処する。
複数の言語にわたる意思決定タスクに対する応答を解析することにより、最先端のLLMにおける多言語バイアスについて検討する。
論文 参考訳(メタデータ) (2025-02-25T08:07:42Z) - Do Vision-Language Models Represent Space and How? Evaluating Spatial Frame of Reference Under Ambiguities [27.940469021840745]
視覚言語モデル(VLM)の空間的推論能力を評価するための評価プロトコルを提案する。
あいまいさを解消する英語の慣行と幾らかの整合性があるにもかかわらず、本実験はVLMの重大な欠点を明らかにした。
視覚言語モデルと人間の認知的直感の整合化を図りつつ、我々は空間的推論のあいまいさと文化的な多様性により多くの注意を払っている。
論文 参考訳(メタデータ) (2024-10-22T19:39:15Z) - Language Model Alignment in Multilingual Trolley Problems [138.5684081822807]
Moral Machine 実験に基づいて,MultiTP と呼ばれる100以上の言語でモラルジレンマヴィグネットの言語間コーパスを開発する。
分析では、19の異なるLLMと人間の判断を一致させ、6つのモラル次元をまたいだ嗜好を捉えた。
我々は、AIシステムにおける一様道徳的推論の仮定に挑戦し、言語間のアライメントの顕著なばらつきを発見した。
論文 参考訳(メタデータ) (2024-07-02T14:02:53Z) - Cross-Lingual Ability of Multilingual Masked Language Models: A Study of
Language Structure [54.01613740115601]
本稿では,構成順序,構成,単語共起の3つの言語特性について検討する。
我々の主な結論は、構成順序と単語共起の寄与は限定的である一方、構成は言語間移動の成功にとってより重要であるということである。
論文 参考訳(メタデータ) (2022-03-16T07:09:35Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。