Fugu-MT 論文翻訳(概要): LOLA -- An Open-Source Massively Multilingual Large Language Model

論文の概要: LOLA -- An Open-Source Massively Multilingual Large Language Model

arxiv url: http://arxiv.org/abs/2409.11272v6
Date: Mon, 06 Jan 2025 17:55:23 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-07 16:36:49.590127
Title: LOLA -- An Open-Source Massively Multilingual Large Language Model
Title（参考訳）: オープンソースの多言語大規模言語モデルLOLA
Authors: Nikit Srivastava, Denis Kuchelev, Tatiana Moteu Ngoli, Kshitij Shetty, Michael Röder, Hamada Zahera, Diego Moussallem, Axel-Cyrille Ngonga Ngomo,
Abstract要約: LOLAは160以上の言語で訓練された多言語大言語モデルである。私たちのアーキテクチャと実装の選択は、言語多様性を活用するという課題に対処します。学習したエキスパート・ルーティング機構は、暗黙の系統パターンを利用して、多言語性の呪いを和らげる可能性があることを示す。
参考スコア（独自算出の注目度）: 1.5704590739448838
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper presents LOLA, a massively multilingual large language model trained on more than 160 languages using a sparse Mixture-of-Experts Transformer architecture. Our architectural and implementation choices address the challenge of harnessing linguistic diversity while maintaining efficiency and avoiding the common pitfalls of multilinguality. Our analysis of the evaluation results shows competitive performance in natural language generation and understanding tasks. Additionally, we demonstrate how the learned expert-routing mechanism exploits implicit phylogenetic linguistic patterns to potentially alleviate the curse of multilinguality. We provide an in-depth look at the training process, an analysis of the datasets, and a balanced exploration of the model's strengths and limitations. As an open-source model, LOLA promotes reproducibility and serves as a robust foundation for future research. Our findings enable the development of compute-efficient multilingual models with strong, scalable performance across languages.
Abstract（参考訳）: 本稿では,160言語以上で訓練された多言語多言語大言語モデルLOLAについて,Sparse Mixture-of-Experts Transformerアーキテクチャを用いて述べる。我々のアーキテクチャと実装の選択は、効率を維持しつつ言語多様性を活用することの課題に対処し、多言語性の共通の落とし穴を避ける。評価結果を解析した結果,自然言語生成と理解タスクにおける競合性能が示された。さらに、学習した専門家引き抜き機構は、暗黙の系統的言語パターンを利用して、多言語性の呪いを和らげる可能性を実証する。トレーニングプロセスの詳細、データセットの分析、モデルの強みと制限のバランスの取れた探索などを提供しています。オープンソースモデルとして、LOLAは再現性を促進し、将来の研究の堅牢な基盤として機能する。この結果から,言語間での強力なスケーラブルな性能を持つ計算効率のよい多言語モデルの開発が可能となった。

関連論文リスト

Language-Coupled Reinforcement Learning for Multilingual Retrieval-Augmented Generation [73.54930910609328]
多言語検索強化学習フレームワークLcRLを提案する。 LcRLは言語に結合したグループ相対ポリシー最適化をポリシーと報酬モデルに統合する。我々は,言語結合型グループサンプリングをロールアウトモジュールに導入し,知識バイアスを低減し,報酬モデルにおける補助的反一貫性のペナルティを正規化し,知識衝突を軽減する。
論文参考訳（メタデータ） (2026-01-21T11:32:32Z)
RetrieveAll: A Multilingual Named Entity Recognition Framework with Large Language Models [7.867158538366131]
既存の多言語NER法は多言語適応過程において言語干渉に直面する。動的LoRAに基づく多言語NERフレームワークRetrieveAllを提案する。本稿では,データ固有のポテンシャルをフル活用した粒界知識拡張手法を提案する。
論文参考訳（メタデータ） (2025-05-25T12:52:18Z)
Cross-Lingual Pitfalls: Automatic Probing Cross-Lingual Weakness of Multilingual Large Language Models [55.14276067678253]
本稿では,Large Language Models (LLMs) における言語間関係の弱点を効率的に同定するための新しい手法を提案する。この手法を用いて16言語で6,000以上のバイリンガルペアからなる新しいデータセットを構築し、最先端のモデルにおいても弱点を明らかにする効果を実証した。さらに,言語的類似性と言語間の弱点との関係について検討し,言語的関連言語が類似した演奏パターンを共有することを明らかにした。
論文参考訳（メタデータ） (2025-05-24T12:31:27Z)
When Less Language is More: Language-Reasoning Disentanglement Makes LLMs Better Multilingual Reasoners [111.50503126693444]
言語固有のアブレーションは多言語推論性能を継続的に向上させることを示す。トレーニング後のアブレーションと比較して、トレーニング不要のアブレーションは、計算オーバーヘッドを最小限に抑えながら、同等または優れた結果が得られる。
論文参考訳（メタデータ） (2025-05-21T08:35:05Z)
Overcoming Data Scarcity in Generative Language Modelling for Low-Resource Languages: A Systematic Review [0.7366405857677227]
本稿では、低リソース言語(LRL)における生成言語モデリングにおけるデータ不足に対処する戦略に焦点を当てる。モノリンガルデータ拡張、バックトランスレーション、多言語トレーニング、即興エンジニアリングなど、技術的アプローチを特定し、分類し、評価する。我々は,これらの手法を広い範囲のLRLに拡張することを推奨し,同値生成言語システムを構築する上でのオープンな課題を概説する。
論文参考訳（メタデータ） (2025-05-07T16:04:45Z)
Align, Generate, Learn: A Novel Closed-Loop Framework for Cross-Lingual In-Context Learning [0.0]
言語間インコンテキスト学習(XICL)は、多言語タスクに対処するために大規模言語モデル(LLM)を活用するための変換パラダイムとして登場した。タスク関連事例を内部的に選択・活用するために, LLMの生成能力を活用する, 自己管理型フレームワークを提案する。
論文参考訳（メタデータ） (2024-12-12T05:36:51Z)
Investigating Language-Specific Calibration For Pruning Multilingual Large Language Models [11.421452042888523]
多様な言語,タスク,モデル,および SotA プルーニング技術を用いて,多言語モデルをプルーニングするためのキャリブレーション言語を比較した。例えば、ターゲット言語を校正することで、効率的に言語モデリング能力を維持することができるが、必ずしも下流タスクに利益をもたらすとは限らない。
論文参考訳（メタデータ） (2024-08-26T16:29:13Z)
MoE-CT: A Novel Approach For Large Language Models Training With Resistance To Catastrophic Forgetting [53.77590764277568]
ベースモデルの学習を多言語拡張プロセスから分離する新しいMoE-CTアーキテクチャを提案する。我々の設計では、元のLLMパラメータを凍結し、高リソース言語のパフォーマンスを保護しますが、様々な言語データセットに基づいてトレーニングされたMoEモジュールは、低リソース言語の習熟度を向上します。
論文参考訳（メタデータ） (2024-06-25T11:03:45Z)
The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文参考訳（メタデータ） (2024-05-02T14:49:50Z)
ColBERT-XM: A Modular Multi-Vector Representation Model for Zero-Shot Multilingual Information Retrieval [10.664434993386523]
現在のアプローチは、非英語言語における高品質なラベル付きデータの欠如を回避している。本稿では,単一の高リソース言語のリッチデータから学習するモジュール型高密度検索モデルを提案する。
論文参考訳（メタデータ） (2024-02-23T02:21:24Z)
Enhancing Multilingual Capabilities of Large Language Models through Self-Distillation from Resource-Rich Languages [60.162717568496355]
大規模言語モデル(LLM)は多言語コーパスで事前訓練されている。彼らのパフォーマンスは、いくつかのリソース豊富な言語と比較して、ほとんどの言語でまだ遅れています。
論文参考訳（メタデータ） (2024-02-19T15:07:32Z)
Improving In-context Learning of Multilingual Generative Language Models with Cross-lingual Alignment [42.624862172666624]
本稿では,一対の翻訳文を利用する単純な言語間アライメントフレームワークを提案する。多言語コントラスト学習を通じて、異なる言語にまたがる内部文表現を整合させる。実験結果から,事前学習トークンが0.1文未満であっても,アライメントフレームワークは生成言語モデルの言語間相互性を大幅に向上させることが明らかとなった。
論文参考訳（メタデータ） (2023-11-14T11:24:08Z)
Cross-lingual Transfer in Programming Languages: An Extensive Empirical Study [5.350495525141013]
大規模言語モデル(LLM)は、様々なソフトウェアエンジニアリングタスクにおいて最先端のパフォーマンスを達成した。 RustやSwiftといった重要な言語は、公開コードに制限があるため、低リソースのままである。対象とタスクに対して最適なソース言語を推定する性能予測モデルを構築した。
論文参考訳（メタデータ） (2023-10-25T19:04:33Z)
Exploring the Maze of Multilingual Modeling [2.0849578298972835]
我々は,mBERT,XLM-R,GPT-3の3つの言語モデルについて総合評価を行った。その結果,言語固有の事前学習データの量はモデル性能において重要な役割を担っているが,汎用リソースの可用性,言語ファミリ,スクリプトタイプといった他の要因も重要な特徴であることがわかった。
論文参考訳（メタデータ） (2023-10-09T04:48:14Z)
PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文参考訳（メタデータ） (2023-07-12T09:00:37Z)
Evaluating Cross-Lingual Transfer Learning Approaches in Multilingual Conversational Agent Models [1.52292571922932]
自然言語理解(NLU)モデルのための汎用多言語モデルフレームワークを提案する。これらの多言語モデルが,言語固有のテストデータにまたがる単言語モデルと比較して,同等あるいは優れた性能に到達できることを示す。
論文参考訳（メタデータ） (2020-12-07T17:14:52Z)
Cross-lingual Machine Reading Comprehension with Language Branch Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。 LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文参考訳（メタデータ） (2020-10-27T13:12:17Z)
XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文参考訳（メタデータ） (2020-05-01T12:22:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。