論文の概要: CLM-Bench: Benchmarking and Analyzing Cross-lingual Misalignment of LLMs in Knowledge Editing
- arxiv url: http://arxiv.org/abs/2601.17397v1
- Date: Sat, 24 Jan 2026 09:55:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.713289
- Title: CLM-Bench: Benchmarking and Analyzing Cross-lingual Misalignment of LLMs in Knowledge Editing
- Title(参考訳): CLM-Bench:知識編集におけるLLMの言語間ミスのベンチマークと解析
- Authors: Yucheng Hu, Wei Zhou, Juesi Xiao,
- Abstract要約: CLM-Benchは中国固有の手法を用いて構築されたカルチャー対応のベンチマークである。
代表的LLMについて広範な実験を行い、言語間の相違を顕著に明らかにした。
本研究は,言語間移動における現在の手法の有効性に挑戦し,文化的にネイティブなベンチマークの重要性を浮き彫りにした。
- 参考スコア(独自算出の注目度): 5.137059606366328
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge Editing (KE) has emerged as a promising paradigm for updating facts in Large Language Models (LLMs) without retraining. However, progress in Multilingual Knowledge Editing (MKE) is currently hindered by biased evaluation frameworks. We observe that existing MKE benchmarks are typically constructed by mechanically translating English-centric datasets into target languages (e.g., English-to-Chinese). This approach introduces translation artifacts and neglects culturally specific entities native to the target language, failing to reflect the true knowledge distribution of LLMs. To address this, we propose CLM-Bench, a culture-aware benchmark constructed using a native Chinese-first methodology. We curate 1,010 high-quality CounterFact pairs rooted in Chinese cultural contexts and align them with English counterparts. Using CLM-Bench, we conduct extensive experiments on representative LLMs (e.g., Llama-3, Qwen2) and reveal a significant Cross-lingual Misalignment: edits in one language function independently and fail to propagate to the other. We further provide a geometric explanation via layer-wise representation analysis, demonstrating that edit vectors for Chinese and English are nearly orthogonal -- residing in disjoint subspaces -- while mixed-lingual editing exhibits linear additivity of these vectors. Our findings challenge the effectiveness of current methods in cross-lingual transfer and underscore the importance of culturally native benchmarks.
- Abstract(参考訳): 知識編集(KE)は,大規模言語モデル(LLM)における事実を再学習せずに更新するための,有望なパラダイムとして登場した。
しかし、MKE(Multilingual Knowledge Editing)の進歩は、現在バイアス評価フレームワークによって妨げられている。
既存のMKEベンチマークは、典型的には、機械的に英語中心のデータセットをターゲット言語(例えば、英語から中国語)に翻訳することで構築される。
このアプローチは翻訳アーティファクトを導入し、LLMの真の知識分布を反映せず、対象言語に固有の文化的特異なエンティティを無視する。
そこで我々は,中国第一のネイティブ手法を用いて構築したCLM-Benchを提案する。
中国文化の文脈に根ざした1010の高品質のCounterFactペアをキュレートし、それらを英語のものと整合させる。
CLM-Benchを用いて、代表LLM(例:Llama-3, Qwen2)の広範な実験を行い、言語間ミスサライメントを顕著に明らかにした。
さらに,中国語と英語の編集ベクトルがほぼ直交的であり,また混合言語による編集はこれらのベクトルの線形加法的付加性を示すことを示す。
本研究は,言語間移動における現在の手法の有効性に挑戦し,文化的にネイティブなベンチマークの重要性を浮き彫りにした。
関連論文リスト
- Code-Switching In-Context Learning for Cross-Lingual Transfer of Large Language Models [64.54005959758733]
我々は,コードスイッチング・イン・コンテキスト・ラーニング(CSICL)を,推論中の翻訳障壁を克服するための原則的かつ堅牢なアプローチとして導入する。
4つのLLM、6つのデータセット、10の言語にわたる広範な実験を行い、知識集約型ドメインと推論指向ドメインの両方にまたがる。
その結果、CSICLはX-ICLベースラインを一貫して上回り、ターゲット言語と見当たらない言語の両方で3.1%pと1.9%pを達成した。
論文 参考訳(メタデータ) (2025-10-07T08:35:42Z) - Language Surgery in Multilingual Large Language Models [39.66404344691661]
大規模言語モデル(LLM)はタスクや言語にまたがる顕著な一般化機能を示している。
本稿では, LLMにおける自然に出現する表現アライメント, 特に中層における表現アライメントについて検討する。
Inference-Time Language Control (ITLC) を提案する。
論文 参考訳(メタデータ) (2025-06-14T11:09:50Z) - Lost in Multilinguality: Dissecting Cross-lingual Factual Inconsistency in Transformer Language Models [49.16690802656554]
複数の言語で意味論的に等価なプロンプトに対して一貫した応答を提供するのに、多言語の事実モデルでは苦労していることがわかった。
最終層での計算をバイパスし,予測精度と言語間の整合性を向上する線形ショートカット手法を提案する。
論文 参考訳(メタデータ) (2025-04-05T19:43:10Z) - Cross-Lingual Multi-Hop Knowledge Editing [53.028586843468915]
言語横断的な設定で様々なSoTA知識編集技術の性能を計測・解析するための多言語多言語知識編集パラダイムを提案する。
具体的には、知識編集能力を測定するために並列言語間ベンチマーク CROLIN-MQUAKE を作成します。
次に,言語間マルチホップ知識編集システムであるCLEVER-CKEを提案する。
論文 参考訳(メタデータ) (2024-07-14T17:18:16Z) - CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models [53.9835961434552]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。
CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。
データ汚染を軽減するため、データセットの半分しか公開せず、残りは非公開であり、スコア分散を最小限に抑えるために多種多様な命令を導入する。
論文 参考訳(メタデータ) (2024-02-20T16:02:12Z) - Cross-Lingual Knowledge Editing in Large Language Models [73.12622532088564]
知識編集は、スクラッチから再学習することなく、大きな言語モデルを新しい知識に適応させることが示されている。
ソース言語編集が別のターゲット言語に与える影響は、いまだ不明である。
まず、ZsREを英語から中国語に翻訳することで、大規模な言語間合成データセットを収集する。
論文 参考訳(メタデータ) (2023-09-16T11:07:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。