Fugu-MT 論文翻訳(概要): How Vocabulary Sharing Facilitates Multilingualism in LLaMA?

論文の概要: How Vocabulary Sharing Facilitates Multilingualism in LLaMA?

arxiv url: http://arxiv.org/abs/2311.09071v2
Date: Mon, 3 Jun 2024 06:11:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-04 20:21:27.530522
Title: How Vocabulary Sharing Facilitates Multilingualism in LLaMA?
Title（参考訳）: LLaMAにおける語彙共有は多言語主義をいかに促進させるか
Authors: Fei Yuan, Shuai Yuan, Zhiyong Wu, Lei Li,
Abstract要約: 大きな言語モデル(LLM)は英語のタスクに強いパフォーマンスを示すが、他の言語には制限がある。本研究では,語彙共有の観点からLLMの多言語的能力について検討する。
参考スコア（独自算出の注目度）: 19.136382859468693
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs), often show strong performance on English tasks, while exhibiting limitations on other languages. What is an LLM's multilingual capability when it is trained only on certain languages? The underlying mechanism remains unclear. This study endeavors to examine the multilingual capability of LLMs from the vocabulary sharing perspective by conducting an exhaustive analysis across 101 languages. Through the investigation of the performance gap before and after embedding fine-tuning, we discovered four distinct quadrants. By delving into each quadrant we provide actionable and efficient guidelines for tuning these languages. Extensive experiments reveal that existing LLMs possess multilingual capabilities that surpass our expectations, and we can significantly improve the multilingual performance of LLMs based on these attributes of each quadrant~\footnote{\url{https://github.com/CONE-MT/Vocabulary-Sharing-Facilitates-Multilingualism}.}.
Abstract（参考訳）: 大きな言語モデル(LLM)は英語のタスクに強いパフォーマンスを示すが、他の言語には制限がある。 LLMが特定の言語でのみトレーニングされる場合、LLMの多言語機能はどのようなものでしょうか? 根底にあるメカニズムはいまだ不明である。本研究では,101言語にまたがる徹底的な分析を行うことにより,語彙共有の観点からLLMの多言語的能力を検討する。微調整前後のパフォーマンスギャップを調べた結果, 4つの異なる四成分が検出された。各クアドラントを掘り下げることで、これらの言語をチューニングするための実行可能で効率的なガイドラインを提供します。大規模な実験により、既存のLLMは我々の期待を超える多言語機能を持つことが明らかとなり、これらの属性に基づいてLLMの多言語性能を著しく向上させることができる。と。

関連論文リスト

Do Multilingual LLMs have specialized language heads? [0.571097144710995]
本稿では,多言語LLMが言語毎に特化しているかどうかを考察する。対象言語の性能を低下させることなく、不必要な言語に対する言語固有のヘッドを除去する可能性を検討する。
論文参考訳（メタデータ） (2026-02-09T13:15:17Z)
AlignX: Advancing Multilingual Large Language Models with Multilingual Representation Alignment [46.881574083116085]
多言語大言語モデル(LLM)には、印象的な多言語理解と生成能力がある。 LLMのパフォーマンスと言語間アライメントは、非支配言語ではしばしば遅れる。 2段階の表現レベルフレームワークである多言語のパフォーマンスギャップを橋渡しするために,AlignXを提案する。
論文参考訳（メタデータ） (2025-09-29T06:37:46Z)
Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
Lensは、大規模言語モデル(LLM)の多言語機能を強化する新しいアプローチである LLMの上位層から言語に依存しない、言語固有のサブ空間内の隠された表現を操作できる。既存のポストトレーニング手法に比べて計算資源がはるかに少ないため、優れた結果が得られる。
論文参考訳（メタデータ） (2024-10-06T08:51:30Z)
Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか? 本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文参考訳（メタデータ） (2024-06-23T15:15:17Z)
Teaching LLMs to Abstain across Languages via Multilingual Feedback [40.84205285309612]
多言語フィードバックは,多様な言語,文化,コミュニティ間の知識ギャップを識別する上で有効であることを示す。大規模な実験により、多言語フィードバックアプローチは、様々な強いベースラインよりも優れていることが示された。さらに分析したところ、多言語フィードバックは多言語話者に役立てるための効果的かつ公平な回避戦略であることがわかった。
論文参考訳（メタデータ） (2024-06-22T21:59:12Z)
Getting More from Less: Large Language Models are Good Spontaneous Multilingual Learners [67.85635044939836]
大きな言語モデル(LLM)は印象的な言語機能を示している。本研究では,LLMの自然多言語アライメント改善について検討する。質問翻訳データ(すなわち注釈付き回答なし)に基づいて学習したLLMは、英語と幅広い言語との整合を促進できることがわかった。
論文参考訳（メタデータ） (2024-05-22T16:46:19Z)
Teaching a Multilingual Large Language Model to Understand Multilingual Speech via Multi-Instructional Training [29.47243668154796]
BLOOMZMMSは多言語LLMと多言語音声エンコーダを統合する新しいモデルである。本稿では,言語知識のテキストから音声モダリティへの伝達性を示す。ゼロショット評価の結果は、複数のタスクにまたがるアプローチの堅牢性を確認します。
論文参考訳（メタデータ） (2024-04-16T21:45:59Z)
Is Translation All You Need? A Study on Solving Multilingual Tasks with Large Language Models [79.46179534911019]
大規模言語モデル (LLM) は多言語機能を示しているが、トレーニングコーパスの不均衡のため、主に英語中心である。この作業は、NLPタスクから実際のユーザクエリまで、評価を拡張します。深い言語理解を必要とする文化関連のタスクでは、ネイティブ言語のプロンプトがより有望になる傾向があります。
論文参考訳（メタデータ） (2024-03-15T12:47:39Z)
How do Large Language Models Handle Multilingualism? [81.15060972112563]
本研究では,大規模言語モデル(LLM)が多言語モデルをどのように扱うかを検討する。 LLMはまずクエリを理解し、タスク解決のために多言語入力を英語に変換する。中間層では、英語を思考に用い、自己意識とフィードフォワード構造を持つ多言語知識を取り入れている。
論文参考訳（メタデータ） (2024-02-29T02:55:26Z)
Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models [117.20416338476856]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。 LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文参考訳（メタデータ） (2024-02-26T09:36:05Z)
Eliciting the Translation Ability of Large Language Models via Multilingual Finetuning with Translation Instructions [68.01449013641532]
大規模事前学習言語モデル(LLM)は多言語翻訳において強力な能力を示している。本稿では,多言語事前学習言語モデルであるXGLM-7Bを微調整して,多言語翻訳を行う方法を提案する。
論文参考訳（メタデータ） (2023-05-24T12:00:24Z)
Don't Trust ChatGPT when Your Question is not in English: A Study of Multilingual Abilities and Types of LLMs [16.770697902481107]
大規模言語モデル(LLM)は、例外的な自然言語理解能力を示している。本論文では,多言語環境下でのLLMの性能格差を体系的に評価する方法を提案する。その結果,GPTは多言語設定において高い翻訳的振る舞いを示すことがわかった。
論文参考訳（メタデータ） (2023-05-24T02:05:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。