論文の概要: Lens: Rethinking Multilingual Enhancement for Large Language Models
- arxiv url: http://arxiv.org/abs/2410.04407v1
- Date: Sun, 6 Oct 2024 08:51:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 08:00:46.492068
- Title: Lens: Rethinking Multilingual Enhancement for Large Language Models
- Title(参考訳): Lens: 大規模言語モデルの多言語拡張を再考する
- Authors: Weixiang Zhao, Yulin Hu, Jiahe Guo, Xingyu Sui, Tongtong Wu, Yang Deng, Yanyan Zhao, Bing Qin, Wanxiang Che, Ting Liu,
- Abstract要約: Lensは、大規模言語モデル(LLM)の多言語機能を強化する新しいアプローチである
LLMの上位層から言語に依存しない、言語固有のサブ空間内の隠された表現を操作できる。
既存のポストトレーニング手法に比べて計算資源がはるかに少ないため、優れた結果が得られる。
- 参考スコア(独自算出の注目度): 70.85065197789639
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the growing global demand for large language models (LLMs) that serve users from diverse linguistic backgrounds, most cutting-edge LLMs remain predominantly English-centric. This creates a performance gap across languages, restricting access to advanced AI services for non-English speakers. Current methods to enhance multilingual capabilities largely rely on data-driven post-training techniques, such as multilingual instruction tuning or continual pre-training. However, these approaches encounter significant challenges, including the scarcity of high-quality multilingual datasets and the limited enhancement of multilingual capabilities. They often suffer from off-target issues and catastrophic forgetting of central language abilities. To this end, we propose Lens, a novel approach to enhance multilingual capabilities of LLMs by leveraging their internal language representation spaces. Specially, Lens operates by manipulating the hidden representations within the language-agnostic and language-specific subspaces from top layers of LLMs. Using the central language as a pivot, the target language is drawn closer to it within the language-agnostic subspace, allowing it to inherit well-established semantic representations. Meanwhile, in the language-specific subspace, the representations of the target and central languages are pushed apart, enabling the target language to express itself distinctly. Extensive experiments on one English-centric and two multilingual LLMs demonstrate that Lens effectively improves multilingual performance without sacrificing the original central language capabilities of the backbone model, achieving superior results with much fewer computational resources compared to existing post-training approaches.
- Abstract(参考訳): 多様な言語背景を持つユーザ向けの大規模言語モデル(LLM)の世界的な需要が高まっているにもかかわらず、最先端のLLMのほとんどは英語中心のままである。
これにより、言語間でのパフォーマンスギャップが生じ、非英語話者の高度なAIサービスへのアクセスが制限される。
現在の多言語機能向上手法は、多言語命令チューニングや連続的事前学習といったデータ駆動型後学習技術に大きく依存している。
しかし、これらのアプローチは、高品質な多言語データセットの不足や、多言語機能の制限された拡張など、重大な課題に直面している。
彼らはしばしば標的外問題や中央言語能力の破滅的な忘れ込みに悩まされる。
この目的のために、Lensは、内部言語表現空間を活用することで、LLMの多言語機能を強化するための新しいアプローチである。
特にLensは、LLMの上位層から言語に依存しない、言語固有のサブ空間内の隠された表現を操作することで動作する。
中央言語をピボットとして使用すると、ターゲット言語は言語に依存しない部分空間内でそれに近い位置に描画されるため、十分に確立されたセマンティック表現を継承することができる。
一方、言語固有の部分空間では、ターゲット言語と中央言語の表現が切り離され、ターゲット言語自体が明確に表現される。
1つの英語中心のLLMと2つの多言語LLMの広範な実験により、Lensはバックボーンモデルの本来の中央言語能力を犠牲にすることなく、多言語のパフォーマンスを効果的に向上し、既存の訓練後のアプローチと比べて計算資源をはるかに少なくして優れた結果が得られることを示した。
関連論文リスト
- Middle-Layer Representation Alignment for Cross-Lingual Transfer in Fine-Tuned LLMs [20.756383171892608]
中層は言語間アライメントの可能性が強い。
スロットフィリング、機械翻訳、構造化テキスト生成の実験は、言語間転送における一貫した改善を示している。
我々は、個別に訓練されたアライメントモジュールを既存のタスク固有のモジュールとマージすることができ、完全に再トレーニングすることなく言語間の機能を改善することを示す。
論文 参考訳(メタデータ) (2025-02-20T18:45:43Z) - Adapting Language-Specific LLMs to a Reasoning Model in One Day via Model Merging - An Open Recipe [12.076338505539194]
本稿では,言語固有の大規模言語モデル(LLM)の推論能力の向上を目的とする。
DeepSeek R1は推論に優れていますが、主に英語や中国語のような高リソース言語にメリットがあります。
低リソース言語は、英語中心のトレーニングデータとモデル最適化の優位性のため、いまだに保存されていない。
論文 参考訳(メタデータ) (2025-02-13T08:10:45Z) - LUSIFER: Language Universal Space Integration for Enhanced Multilingual Embeddings with Large Language Models [89.13128402847943]
LUSIFERは,LLMをベースとした多言語タスクの埋め込みモデルに,多言語監視を必要とせずに適用可能なゼロショット方式である。
LUSIFERのアーキテクチャは多言語エンコーダを組み、言語ユニバーサル学習者として機能し、埋め込み固有のタスクに最適化されたLLMベースの埋め込みモデルと組み合わせている。
5つの主要な埋め込みタスク、123の多様なデータセット、14言語にわたるカバレッジを含む新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-01-01T15:43:07Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Towards a More Inclusive AI: Progress and Perspectives in Large Language Model Training for the Sámi Language [7.289015788793582]
本研究は、S'ami言語における技術参加の増大に焦点を当てている。
我々は,Ultra Low Resource (ULR)言語の言語モデリング問題に対して,MLコミュニティの注目を集めている。
Webから利用可能なS'ami言語リソースをコンパイルして、言語モデルをトレーニングするためのクリーンなデータセットを作成しました。
論文 参考訳(メタデータ) (2024-05-09T13:54:22Z) - Enhancing Multilingual Capabilities of Large Language Models through
Self-Distillation from Resource-Rich Languages [60.162717568496355]
大規模言語モデル(LLM)は多言語コーパスで事前訓練されている。
彼らのパフォーマンスは、いくつかのリソース豊富な言語と比較して、ほとんどの言語でまだ遅れています。
論文 参考訳(メタデータ) (2024-02-19T15:07:32Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。