論文の概要: Understanding the role of FFNs in driving multilingual behaviour in LLMs
- arxiv url: http://arxiv.org/abs/2404.13855v1
- Date: Mon, 22 Apr 2024 03:47:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 15:26:21.395821
- Title: Understanding the role of FFNs in driving multilingual behaviour in LLMs
- Title(参考訳): LLMの多言語行動におけるFFNの役割の解明
- Authors: Sunit Bhattacharya, Ondřej Bojar,
- Abstract要約: 本稿では,大規模言語モデル群における多言語機能の詳細な分析を行う。
異なるレイヤにおけるモデルの多言語的振る舞いを探索する新しいメトリクスを導入し、多言語処理におけるアーキテクチャ選択の影響について光を当てる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multilingualism in Large Language Models (LLMs) is an yet under-explored area. In this paper, we conduct an in-depth analysis of the multilingual capabilities of a family of a Large Language Model, examining its architecture, activation patterns, and processing mechanisms across languages. We introduce novel metrics to probe the model's multilingual behaviour at different layers and shed light on the impact of architectural choices on multilingual processing. Our findings reveal different patterns of multilinugal processing in the sublayers of Feed-Forward Networks of the models. Furthermore, we uncover the phenomenon of "over-layerization" in certain model configurations, where increasing layer depth without corresponding adjustments to other parameters may degrade model performance. Through comparisons within and across languages, we demonstrate the interplay between model architecture, layer depth, and multilingual processing capabilities of LLMs trained on multiple languages.
- Abstract(参考訳): LLM(Large Language Models)における多言語主義(multilingualism in Large Language Models)は、まだ未発見の分野である。
本稿では,大規模言語モデルのファミリーの多言語機能の詳細な分析を行い,そのアーキテクチャ,アクティベーションパターン,言語間の処理機構について検討する。
異なるレイヤにおけるモデルの多言語的振る舞いを探索する新しいメトリクスを導入し、多言語処理におけるアーキテクチャ選択の影響について光を当てる。
そこで本研究では,フィードフォワードネットワークのサブレイヤにおけるマルチリンガル処理のパターンを明らかにした。
さらに,特定のモデル構成における「過層化」現象を明らかにし,他のパラメータに対する調整を伴わない層深さの増加がモデル性能を低下させる可能性がある。
言語間の比較を通じて、複数の言語で訓練されたLLMのモデルアーキテクチャ、層深度、多言語処理能力の相互作用を実演する。
関連論文リスト
- How do Large Language Models Handle Multilingualism? [87.06210331315451]
大規模言語モデル(LLM)は、様々な言語で顕著な性能を示す。
LLMの多言語入力処理を記述したフレームワークを提案する。
さらに,特定の言語処理における言語特異的ニューロンの存在について検討する。
論文 参考訳(メタデータ) (2024-02-29T02:55:26Z) - Language-Specific Neurons: The Key to Multilingual Capabilities in Large
Language Models [122.25217086389425]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。
LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。
以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文 参考訳(メタデータ) (2024-02-26T09:36:05Z) - Unraveling Babel: Exploring Multilingual Activation Patterns within
Large Language Models [25.622592561262024]
大規模言語モデル(LLM)の多言語アクティベーションパターンについて検討する。
我々は,非言語特異的ニューロンと言語特異的活性化ニューロンの存在を発見した。
論文 参考訳(メタデータ) (2024-02-26T07:44:56Z) - Towards Unified Task Embeddings Across Multiple Models: Bridging the Gap
for Prompt-Based Large Language Models and Beyond [18.476364176960868]
既存のタスク埋め込みメソッドは、微調整されたタスク固有の言語モデルに依存している。
本稿では,様々なモデルからタスク埋め込みを調和させる統合タスク埋め込み(FUTE)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T13:13:31Z) - SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large
Language Models [97.95061863448996]
MLLM(Multimodality Large Language Model)シリーズを開発した。
我々は、言語、ビジョン、視覚言語タスクで利用可能なリソースを網羅した包括的なデータセットを組み立てる。
パラメータサイズや多言語能力の異なるMLLMのスペクトルを得る。
論文 参考訳(メタデータ) (2024-02-08T18:59:48Z) - On the Analysis of Cross-Lingual Prompt Tuning for Decoder-based
Multilingual Model [49.81429697921861]
多言語自己回帰モデルにおけるパラメータ効率細調整(PEFT)と言語間タスクの相互作用について検討する。
高速チューニングは、微調整よりも低リソース言語の性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-14T00:43:33Z) - Probing LLMs for Joint Encoding of Linguistic Categories [10.988109020181563]
大規模言語モデル(LLM)における言語カテゴリーの合同符号化をテストするためのフレームワークを提案する。
関連音声(POS)クラスと異なる(POSクラスと関連する構文依存関係)言語階層の双方で共同符号化の証拠を見いだした。
論文 参考訳(メタデータ) (2023-10-28T12:46:40Z) - On the Performance of Multimodal Language Models [4.677125897916577]
本研究は、異なるマルチモーダル命令チューニングアプローチの比較分析を行う。
大規模言語モデルにマルチモーダル機能を組み込む際に,アーキテクチャ選択を導く上で重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2023-10-04T23:33:36Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - Examining Scaling and Transfer of Language Model Architectures for
Machine Translation [51.69212730675345]
言語モデル(LM)は単一のレイヤのスタックで処理し、エンコーダ・デコーダモデル(EncDec)は入力と出力の処理に別々のレイヤスタックを使用する。
機械翻訳において、EncDecは長年好まれてきたアプローチであるが、LMの性能についての研究はほとんどない。
論文 参考訳(メタデータ) (2022-02-01T16:20:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。