論文の概要: How Do Multilingual Language Models Remember Facts?
- arxiv url: http://arxiv.org/abs/2410.14387v2
- Date: Sat, 15 Feb 2025 18:22:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:05:18.694999
- Title: How Do Multilingual Language Models Remember Facts?
- Title(参考訳): マルチ言語モデルはどのようにしてファクトを思い出すか?
- Authors: Constanza Fierro, Negar Foroutan, Desmond Elliott, Anders Søgaard,
- Abstract要約: これまでに同定された英語のリコール機構が多言語文脈に適用可能であることを示す。
我々は、リコール中の言語の役割をローカライズし、エンリッチメントが言語に依存しないことを発見した。
デコーダのみのLLMでは、FVは2つの異なる段階でこれらの2つの情報を構成する。
- 参考スコア(独自算出の注目度): 50.13632788453612
- License:
- Abstract: Large Language Models (LLMs) store and retrieve vast amounts of factual knowledge acquired during pre-training. Prior research has localized and identified mechanisms behind knowledge recall; however, it has only focused on English monolingual models. The question of how these mechanisms generalize to non-English languages and multilingual LLMs remains unexplored. In this paper, we address this gap by conducting a comprehensive analysis of three multilingual LLMs. First, we show that previously identified recall mechanisms in English largely apply to multilingual contexts, with nuances based on language and architecture. Next, through patching intermediate representations, we localize the role of language during recall, finding that subject enrichment is language-independent, while object extraction is language-dependent. Additionally, we discover that the last token representation acts as a Function Vector (FV), encoding both the language of the query and the content to be extracted from the subject. Furthermore, in decoder-only LLMs, FVs compose these two pieces of information in two separate stages. These insights reveal unique mechanisms in multilingual LLMs for recalling information, highlighting the need for new methodologies--such as knowledge evaluation, fact editing, and knowledge acquisition--that are specifically tailored for multilingual LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、事前訓練中に取得した膨大な事実知識を格納し、取得する。
これまでの研究では、知識リコールの背後にあるメカニズムをローカライズし、特定してきたが、英語の単言語モデルにのみ焦点が当てられている。
これらのメカニズムが英語以外の言語や多言語 LLM にどのように一般化されるのかという問題は未解明のままである。
本稿では,3つの多言語LLMの包括的解析を行うことにより,このギャップに対処する。
まず,従来同定されていたリコール機構が,言語とアーキテクチャに基づくニュアンスを持つ多言語文脈に適用可能であることを示す。
次に、中間表現にパッチを当てることで、リコール中の言語の役割をローカライズし、被写体豊かさは言語に依存しないが、オブジェクト抽出は言語に依存していることを示す。
さらに、最後のトークン表現が関数ベクトル(FV)として機能し、クエリの言語と被写体から抽出されるコンテンツの両方を符号化する。
さらに、デコーダのみのLLMでは、FVは2つの別々の段階でこれらの2つの情報を構成する。
これらの知見は,多言語LLMに特化された知識評価,事実編集,知識獲得など,新たな方法論の必要性を浮き彫りにした,多言語LLMの独特なメカニズムを明らかにする。
関連論文リスト
- Converging to a Lingua Franca: Evolution of Linguistic Regions and Semantics Alignment in Multilingual Large Language Models [11.423589362950812]
大規模言語モデル(LLM)は、特に多言語文脈において顕著な性能を示した。
近年の研究では、LLMは、ある言語で学んだスキルを他の言語に伝達することができることが示唆されているが、この能力の背後にある内部メカニズムはいまだ不明である。
本稿では,LLMの内部動作に関する知見を提供し,言語間能力の向上のための基盤を提供する。
論文 参考訳(メタデータ) (2024-10-15T15:49:15Z) - Multilingual Needle in a Haystack: Investigating Long-Context Behavior of Multilingual Large Language Models [22.859955360764275]
本稿では,MultiLingual Needle-in-a-Haystack(MLNeedle)テストを導入する。
我々はMLNeedleの4つの最先端の大規模言語モデルを評価する。
論文 参考訳(メタデータ) (2024-08-19T17:02:06Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - 1+1>2: Can Large Language Models Serve as Cross-Lingual Knowledge Aggregators? [46.43162333819418]
大規模言語モデル(LLM)は、様々な言語にまたがって情報を処理できることから、大きな注目を集めている。
それらの能力にもかかわらず、異なる言語で同じクエリを扱うことに矛盾を示し、さらなる進歩のための課題を提示している。
本稿では,多言語からの知識を集約することで,LLMの多言語的性能を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-06-20T20:32:53Z) - MLaKE: Multilingual Knowledge Editing Benchmark for Large Language Models [65.10456412127405]
MLaKEは5言語にわたる知識編集手法の適応性のベンチマークである。
MLaKEは、ウィキペディアから言語にまたがるファクトチェーンを集約し、フリーフォームとマルチチョイスの両方で質問を生成する。
MLaKEにおける既存手法の多言語知識編集の一般化能力を評価する。
論文 参考訳(メタデータ) (2024-04-07T15:23:28Z) - A Survey on Multilingual Large Language Models: Corpora, Alignment, and Bias [5.104497013562654]
本稿では,MLLMの進化,鍵技術,多言語能力について概説する。
我々は、MLLMのトレーニングや下流タスクに適した多言語データセットに広く利用されている多言語コーパスについて検討する。
本稿では,MLLMのカテゴリと評価指標を含むバイアスについて論じ,既存のデバイアス手法を要約する。
論文 参考訳(メタデータ) (2024-04-01T05:13:56Z) - Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models [117.20416338476856]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。
LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。
以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文 参考訳(メタデータ) (2024-02-26T09:36:05Z) - Language Representation Projection: Can We Transfer Factual Knowledge
across Languages in Multilingual Language Models? [48.88328580373103]
パラメータフリーの$textbfL$anguage $textbfR$epresentation $textbfP$rojection Module (LRP2)を提案する。
第1のモジュールは非英語の表現を英語のような同値に変換し、第2のモジュールは英語のような表現を対応する非英語の表現に戻す。
mLAMAデータセットによる実験結果から,LRP2は事実知識検索の精度を大幅に向上し,多種多様な非英語言語間の知識伝達を容易にすることが示された。
論文 参考訳(メタデータ) (2023-11-07T08:16:16Z) - Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of
Multilingual Language Models [73.11488464916668]
本研究では,多言語事前学習プロセスのダイナミクスについて検討する。
我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。
分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-05-24T03:35:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。