論文の概要: How Do Multilingual Models Remember? Investigating Multilingual Factual Recall Mechanisms
- arxiv url: http://arxiv.org/abs/2410.14387v1
- Date: Fri, 18 Oct 2024 11:39:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:25:37.522417
- Title: How Do Multilingual Models Remember? Investigating Multilingual Factual Recall Mechanisms
- Title(参考訳): マルチリンガルモデルをどう思い出すか? マルチリンガル・ファクチュアル・リコールのメカニズムを探る
- Authors: Constanza Fierro, Negar Foroutan, Desmond Elliott, Anders Søgaard,
- Abstract要約: 大規模言語モデル(LLM)は、事前訓練中に取得した膨大な事実知識を格納し、取得する。
これらのプロセスが他の言語や多言語 LLM にどのように一般化されるのかという問題は未解明のままである。
言語がリコールプロセスにおいてどのような役割を果たすのかを考察し,言語に依存しない,言語に依存したメカニズムの証拠を明らかにする。
- 参考スコア(独自算出の注目度): 50.13632788453612
- License:
- Abstract: Large Language Models (LLMs) store and retrieve vast amounts of factual knowledge acquired during pre-training. Prior research has localized and identified mechanisms behind knowledge recall; however, it has primarily focused on English monolingual models. The question of how these processes generalize to other languages and multilingual LLMs remains unexplored. In this paper, we address this gap by conducting a comprehensive analysis of two highly multilingual LLMs. We assess the extent to which previously identified components and mechanisms of factual recall in English apply to a multilingual context. Then, we examine when language plays a role in the recall process, uncovering evidence of language-independent and language-dependent mechanisms.
- Abstract(参考訳): 大規模言語モデル(LLM)は、事前訓練中に取得した膨大な事実知識を格納し、取得する。
これまでの研究では、知識リコールの背後にあるメカニズムをローカライズし、特定してきたが、主に英語の単言語モデルに焦点を当ててきた。
これらのプロセスが他の言語や多言語 LLM にどのように一般化されるのかという問題は未解明のままである。
本稿では,2つの多言語LLMの包括的解析を行うことにより,このギャップに対処する。
英語における事実想起の構成要素やメカニズムが多言語的文脈にどの程度適用されているかを評価する。
次に,言語がリコールプロセスにおいてどのような役割を果たすのかを考察し,言語に依存しない,言語に依存したメカニズムの証拠を明らかにする。
関連論文リスト
- Converging to a Lingua Franca: Evolution of Linguistic Regions and Semantics Alignment in Multilingual Large Language Models [11.423589362950812]
大規模言語モデル(LLM)は、特に多言語文脈において顕著な性能を示した。
近年の研究では、LLMは、ある言語で学んだスキルを他の言語に伝達することができることが示唆されているが、この能力の背後にある内部メカニズムはいまだ不明である。
本稿では,LLMの内部動作に関する知見を提供し,言語間能力の向上のための基盤を提供する。
論文 参考訳(メタデータ) (2024-10-15T15:49:15Z) - Multilingual Needle in a Haystack: Investigating Long-Context Behavior of Multilingual Large Language Models [22.859955360764275]
本稿では,MultiLingual Needle-in-a-Haystack(MLNeedle)テストを導入する。
我々はMLNeedleの4つの最先端の大規模言語モデルを評価する。
論文 参考訳(メタデータ) (2024-08-19T17:02:06Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - 1+1>2: Can Large Language Models Serve as Cross-Lingual Knowledge Aggregators? [46.43162333819418]
大規模言語モデル(LLM)は、様々な言語にまたがって情報を処理できることから、大きな注目を集めている。
それらの能力にもかかわらず、異なる言語で同じクエリを扱うことに矛盾を示し、さらなる進歩のための課題を提示している。
本稿では,多言語からの知識を集約することで,LLMの多言語的性能を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-06-20T20:32:53Z) - MLaKE: Multilingual Knowledge Editing Benchmark for Large Language Models [65.10456412127405]
MLaKEは5言語にわたる知識編集手法の適応性のベンチマークである。
MLaKEは、ウィキペディアから言語にまたがるファクトチェーンを集約し、フリーフォームとマルチチョイスの両方で質問を生成する。
MLaKEにおける既存手法の多言語知識編集の一般化能力を評価する。
論文 参考訳(メタデータ) (2024-04-07T15:23:28Z) - A Survey on Multilingual Large Language Models: Corpora, Alignment, and Bias [5.104497013562654]
本稿では,MLLMの進化,鍵技術,多言語能力について概説する。
我々は、MLLMのトレーニングや下流タスクに適した多言語データセットに広く利用されている多言語コーパスについて検討する。
本稿では,MLLMのカテゴリと評価指標を含むバイアスについて論じ,既存のデバイアス手法を要約する。
論文 参考訳(メタデータ) (2024-04-01T05:13:56Z) - Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models [117.20416338476856]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。
LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。
以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文 参考訳(メタデータ) (2024-02-26T09:36:05Z) - Language Representation Projection: Can We Transfer Factual Knowledge
across Languages in Multilingual Language Models? [48.88328580373103]
パラメータフリーの$textbfL$anguage $textbfR$epresentation $textbfP$rojection Module (LRP2)を提案する。
第1のモジュールは非英語の表現を英語のような同値に変換し、第2のモジュールは英語のような表現を対応する非英語の表現に戻す。
mLAMAデータセットによる実験結果から,LRP2は事実知識検索の精度を大幅に向上し,多種多様な非英語言語間の知識伝達を容易にすることが示された。
論文 参考訳(メタデータ) (2023-11-07T08:16:16Z) - Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of
Multilingual Language Models [73.11488464916668]
本研究では,多言語事前学習プロセスのダイナミクスについて検討する。
我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。
分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-05-24T03:35:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。