Fugu-MT 論文翻訳(概要): Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models

論文の概要: Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models

arxiv url: http://arxiv.org/abs/2406.16135v2
Date: Tue, 04 Mar 2025 07:00:10 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-05 18:50:36.830693
Title: Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models
Title（参考訳）: 多言語大言語モデルにおける言語横断能力と知識バリア
Authors: Lynn Chua, Badih Ghazi, Yangsibo Huang, Pritish Kamath, Ravi Kumar, Pasin Manurangsi, Amer Sinha, Chulin Xie, Chiyuan Zhang,
Abstract要約: 大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。しかし、これらのモデルは言語間の対応する概念、すなわち言語を横断的に関連付けることができるだろうか? 本研究は,言語横断的タスクにおける最先端LLMの評価である。
参考スコア（独自算出の注目度）: 62.91524967852552
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) are typically multilingual due to pretraining on diverse multilingual corpora. But can these models relate corresponding concepts across languages, i.e., be crosslingual? This study evaluates state-of-the-art LLMs on inherently crosslingual tasks. We observe that while these models show promising surface-level crosslingual abilities on machine translation and embedding space analyses, they struggle with deeper crosslingual knowledge transfer, revealing a crosslingual knowledge barrier in both general (MMLU benchmark) and domain-specific (Harry Potter quiz and TOFU benchmark) contexts. Since simple inference-time mitigation methods offer only limited improvement, we propose fine-tuning of LLMs on mixed-language data, which effectively reduces these gaps, even when using out-of-domain datasets like WikiText. Our findings suggest the need for explicit optimization to unlock the full crosslingual potential of LLMs. Our code is publicly available at https://github.com/google-research/crosslingual-knowledge-barriers.
Abstract（参考訳）: 大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。しかし、これらのモデルは、言語間の対応する概念、すなわち言語横断性(crosslingual)を関連付けることができるだろうか? 本研究は,言語横断的タスクにおける最先端LLMの評価である。これらのモデルは,機械翻訳や組込み空間解析において有望な面レベルのクロスリンガル能力を示す一方で,より深いクロスリンガル知識伝達に苦慮し,一般(MMLUベンチマーク)とドメイン固有(Harry Potter quiz,TOFUベンチマーク)の両文脈におけるクロスリンガル知識障壁を明らかにする。単純な推論時間緩和法は限定的な改善しか実現しないため、WikiTextのようなドメイン外データセットを用いても、混合言語データ上でのLLMの微調整が効果的にこれらのギャップを低減することができる。以上の結果から,LLMの完全な言語間ポテンシャルを解放するための明示的な最適化の必要性が示唆された。私たちのコードはhttps://github.com/google-research/crosslingual-knowledge-barriersで公開されています。

関連論文リスト

AlignX: Advancing Multilingual Large Language Models with Multilingual Representation Alignment [46.881574083116085]
多言語大言語モデル(LLM)には、印象的な多言語理解と生成能力がある。 LLMのパフォーマンスと言語間アライメントは、非支配言語ではしばしば遅れる。 2段階の表現レベルフレームワークである多言語のパフォーマンスギャップを橋渡しするために,AlignXを提案する。
論文参考訳（メタデータ） (2025-09-29T06:37:46Z)
Cross-Lingual Pitfalls: Automatic Probing Cross-Lingual Weakness of Multilingual Large Language Models [55.14276067678253]
本稿では,Large Language Models (LLMs) における言語間関係の弱点を効率的に同定するための新しい手法を提案する。この手法を用いて16言語で6,000以上のバイリンガルペアからなる新しいデータセットを構築し、最先端のモデルにおいても弱点を明らかにする効果を実証した。さらに,言語的類似性と言語間の弱点との関係について検討し,言語的関連言語が類似した演奏パターンを共有することを明らかにした。
論文参考訳（メタデータ） (2025-05-24T12:31:27Z)
Language-Specific Latent Process Hinders Cross-Lingual Performance [41.63308734381488]
大規模言語モデル(LLM)は言語間移動が可能なが、異なる言語で書かれたのと同じクエリで入力されたときに一貫性のない出力を生成することができる。 LLMの暗黙的なステップを解釈するために、ロジットレンズを適用し、多言語多目的推論問題を解決する。 LLMは、共有セマンティック空間で作業するのではなく、個々の言語のサブスペースに依存しているため、一貫性が無く、精度が低いことが分かりました。
論文参考訳（メタデータ） (2025-05-19T14:10:15Z)
MEXA: Multilingual Evaluation of English-Centric LLMs via Cross-Lingual Alignment [48.03702722532143]
MEXAは、英語中心の大規模言語モデルの多言語能力を評価する方法である。パラレル文を用いて英語と非英語のアライメントを計算する。このアライメントは、他の言語でのモデルパフォーマンスを推定するために使用することができる。
論文参考訳（メタデータ） (2024-10-08T09:59:23Z)
Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
Lensは、大規模言語モデル(LLM)の多言語機能を強化する新しいアプローチである LLMの上位層から言語に依存しない、言語固有のサブ空間内の隠された表現を操作できる。既存のポストトレーニング手法に比べて計算資源がはるかに少ないため、優れた結果が得られる。
論文参考訳（メタデータ） (2024-10-06T08:51:30Z)
Multilingual Needle in a Haystack: Investigating Long-Context Behavior of Multilingual Large Language Models [22.859955360764275]
本稿では,MultiLingual Needle-in-a-Haystack(MLNeedle)テストを導入する。我々はMLNeedleの4つの最先端の大規模言語モデルを評価する。
論文参考訳（メタデータ） (2024-08-19T17:02:06Z)
Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。 Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文参考訳（メタデータ） (2024-06-28T17:03:51Z)
Mitigating Language-Level Performance Disparity in mPLMs via Teacher Language Selection and Cross-lingual Self-Distillation [25.850573463743352]
大規模多言語事前訓練言語モデル(mPLMs)は、言語横断タスクにおいて優れた性能を発揮する。しかし、mPLM内では異なる言語にまたがって大きな性能格差が存在する。我々は ALSACE を導入し,優れた言語から学んだ知識を活用して,mPLM の低性能言語を誘導する。
論文参考訳（メタデータ） (2024-04-12T14:19:16Z)
UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised Fine-tuning Dataset [69.33424532827608]
オープンソースの大規模言語モデル(LLM)は、様々な分野において大きな強みを持っている。本研究では,オープンソースの多言語教師付き微調整データセットを構築する。結果として得られたUltraLinkデータセットは、5つの言語にわたる約100万のサンプルで構成されている。
論文参考訳（メタデータ） (2024-02-07T05:05:53Z)
Turning English-centric LLMs Into Polyglots: How Much Multilinguality Is Needed? [40.13166574854085]
英語中心の大規模言語モデルにおいて,多言語間の一般化を実現するために必要な最小限の多言語性について検討する。複数言語から3言語までの多言語命令チューニングは,効果的な言語間一般化を実現するのに必要かつ十分であることがわかった。
論文参考訳（メタデータ） (2023-12-20T00:49:52Z)
How Vocabulary Sharing Facilitates Multilingualism in LLaMA? [19.136382859468693]
大きな言語モデル(LLM)は英語のタスクに強いパフォーマンスを示すが、他の言語には制限がある。本研究では,語彙共有の観点からLLMの多言語的能力について検討する。
論文参考訳（メタデータ） (2023-11-15T16:13:14Z)
Efficiently Aligned Cross-Lingual Transfer Learning for Conversational Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文参考訳（メタデータ） (2023-04-03T18:46:01Z)
Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。標準ベンチマークの大幅な向上を報告します。
論文参考訳（メタデータ） (2022-04-30T13:23:16Z)
FILTER: An Enhanced Fusion Method for Cross-lingual Language Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文参考訳（メタデータ） (2020-09-10T22:42:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。