論文の概要: Knowledge Localization in Mixture-of-Experts LLMs Using Cross-Lingual Inconsistency
- arxiv url: http://arxiv.org/abs/2603.17102v1
- Date: Tue, 17 Mar 2026 19:48:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.374718
- Title: Knowledge Localization in Mixture-of-Experts LLMs Using Cross-Lingual Inconsistency
- Title(参考訳): 言語間不整合を用いたLLMの知識局在化
- Authors: Lucas Bandarkar, Alan Ansell, Trevor Cohn,
- Abstract要約: そこで我々は,言語間不整合をMixix-of-experts (MoE) LLMの解釈可能性のツールとして活用することを提案する。
我々の知識ローカライゼーションフレームワークは、モデルが失敗する言語からの情報を正しくリコールする言語セットのルーティングとは対照的である。
6000人中20人しか失活していないにもかかわらず、このモデルでは40%以上のケースで正しく答えられなくなりました。
- 参考スコア(独自算出の注目度): 25.655508607609615
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Modern LLMs continue to exhibit significant variance in behavior across languages, such as being able to recall factual information in some languages but not others. While typically studied as a problem to be mitigated, in this work, we propose leveraging this cross-lingual inconsistency as a tool for interpretability in mixture-of-experts (MoE) LLMs. Our knowledge localization framework contrasts routing for sets of languages where the model correctly recalls information from languages where it fails. This allows us to isolate model components that play a functional role in answering about a piece of knowledge. Our method proceeds in two stages: (1) querying the model with difficult factual questions across a diverse set of languages to generate "success" and "failure" activation buckets and then (2) applying a statistical contrastive analysis to the MoE router logits to identify experts important for knowledge. To validate the necessity of this small number of experts for answering a knowledge question, we deactivate them and re-ask the question. We find that despite only deactivating about 20 out of 6000 experts, the model no longer answers correctly in over 40% of cases. Generally, this method provides a realistic and scalable knowledge localization approach to address increasingly complex LLMs.
- Abstract(参考訳): 現代のLLMは、いくつかの言語で事実情報を思い出すことができるなど、言語間での振る舞いのかなりのばらつきを示し続けている。
典型的には緩和すべき問題として研究されるが、本稿では、この言語間不整合を、MEM(Mix-of-experts)における解釈可能性のツールとして活用することを提案する。
我々の知識ローカライゼーションフレームワークは、モデルが失敗する言語からの情報を正しくリコールする言語セットのルーティングとは対照的である。
これにより、知識の一部に答える際に機能的な役割を果たすモデルコンポーネントを分離できます。
提案手法は,(1) 難解な事実質問を多種多様な言語に問うことで,「難解」と「失敗」のアクティベーションバケットを生成し,(2) MoEルータのロジットに統計的にコントラスト解析を適用し,知識に重要な専門家を特定する。
この少数の専門家が知識の質問に答える必要性を検証するために、我々はそれらを非活性化し、質問を再回答する。
6000人中20人しか失活していないにもかかわらず、このモデルでは40%以上のケースで正しく答えられなくなりました。
一般に、この手法はより複雑なLSMに対応するために、現実的でスケーラブルな知識ローカライゼーションアプローチを提供する。
関連論文リスト
- How Do Multilingual Language Models Remember Facts? [50.13632788453612]
これまでに同定された英語のリコール機構が多言語文脈に適用可能であることを示す。
我々は、リコール中の言語の役割をローカライズし、エンリッチメントが言語に依存しないことを発見した。
デコーダのみのLLMでは、FVは2つの異なる段階でこれらの2つの情報を構成する。
論文 参考訳(メタデータ) (2024-10-18T11:39:34Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間の対応する概念、すなわち言語を横断的に関連付けることができるだろうか?
本研究は,言語横断的タスクにおける最先端LLMの評価である。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。
文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。
この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文 参考訳(メタデータ) (2024-04-09T13:08:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。