Fugu-MT 論文翻訳(概要): How do languages influence each other? Studying cross-lingual data sharing during LLM fine-tuning

論文の概要: How do languages influence each other? Studying cross-lingual data sharing during LLM fine-tuning

arxiv url: http://arxiv.org/abs/2305.13286v1
Date: Mon, 22 May 2023 17:47:41 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-23 13:39:17.609502
Title: How do languages influence each other? Studying cross-lingual data sharing during LLM fine-tuning
Title（参考訳）: 言語はお互いにどのように影響するか? LLM微調整時の言語間データ共有に関する研究
Authors: Rochelle Choenni, Dan Garrette, Ekaterina Shutova
Abstract要約: 多言語大言語モデル(MLLM)は、多くの異なる言語からのデータに基づいて共同で訓練される。言語がどの程度、どの条件下で、互いのデータに依存しているかは、まだ不明である。 MLLMは、細調整の初期段階から複数の言語からのデータに依存しており、細調整の進行に伴って、この依存度が徐々に増加することが判明した。
参考スコア（独自算出の注目度）: 16.8212280804151
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multilingual large language models (MLLMs) are jointly trained on data from many different languages such that representation of individual languages can benefit from other languages' data. Impressive performance on zero-shot cross-lingual transfer shows that these models are capable of exploiting data from other languages. Yet, it remains unclear to what extent, and under which conditions, languages rely on each other's data. In this study, we use TracIn (Pruthi et al., 2020), a training data attribution (TDA) method, to retrieve the most influential training samples seen during multilingual fine-tuning for a particular test language. This allows us to analyse cross-lingual sharing mechanisms of MLLMs from a new perspective. While previous work studied cross-lingual sharing at the level of model parameters, we present the first approach to study cross-lingual sharing at the data level. We find that MLLMs rely on data from multiple languages from the early stages of fine-tuning and that this reliance gradually increases as fine-tuning progresses. We further study how different fine-tuning languages influence model performance on a given test language and find that they can both reinforce and complement the knowledge acquired from data of the test language itself.
Abstract（参考訳）: 多言語大言語モデル(MLLM)は、個々の言語の表現が他の言語のデータから恩恵を受けるように、多くの異なる言語からのデータに基づいて共同で訓練される。ゼロショット言語間転送における印象的なパフォーマンスは、これらのモデルが他の言語からのデータを活用できることを示している。しかし、どの程度、どの条件下で、言語が互いのデータに依存しているかは未だ不明である。本研究では,TracIn(Pruthi et al., 2020)をトレーニングデータ属性(TDA)法として用いて,特定のテスト言語に対する多言語微調整において最も影響力のあるトレーニングサンプルを検索する。これにより,MLLMの言語間共有機構を新たな視点から解析することができる。これまでの研究では,モデルパラメータのレベルで言語間共有を研究していたが,データレベルでの言語間共有を初めて研究した。 MLLMは、細調整の初期段階から複数の言語からのデータに依存しており、細調整の進行に伴って、この依存度は徐々に増加する。さらに、異なる微調整言語が与えられたテスト言語上でのモデルパフォーマンスにどのように影響するかを調べ、それらがテスト言語自体のデータから得られる知識を補強し補うことができることを確かめる。

関連論文リスト

Just Go Parallel: Improving the Multilingual Capabilities of Large Language Models [59.21082876068122]
大規模言語モデル(LLM)は、並列データに対して明示的に訓練されることなく、印象的な翻訳能力を実証している。近年の研究では、トレーニングデータに付随するバイリンガル信号が原因であることが示唆されている。多言語エンコーダベースおよびエンコーダデコーダ言語モデルの多言語能力を高めるために,並列データの有用性を最大化する様々な手法が提案されている。
論文参考訳（メタデータ） (2025-06-16T02:21:15Z)
Enhancing Multilingual Language Models for Code-Switched Input Data [0.0]
本研究では,コード切替データセット上でのマルチ言語BERT(mBERT)の事前学習により,重要なNLPタスクにおけるモデルの性能が向上するかどうかを検討する。本研究では,Spanglish ツイートのデータセットを用いて事前学習を行い,ベースラインモデルに対する事前学習モデルの評価を行う。以上の結果から,事前学習したmBERTモデルは,与えられたタスクのベースラインモデルよりも優れ,また,音声タグ付けの分野でも有意な改善が見られた。
論文参考訳（メタデータ） (2025-03-11T02:49:41Z)
P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P -M P-MMEvalは、さまざまなデータセットにわたって一貫した言語カバレッジを提供し、並列サンプルを提供する。我々は、モデルとタスク間の性能を比較するために、代表的多言語モデル系列に関する広範な実験を行う。
論文参考訳（メタデータ） (2024-11-14T01:29:36Z)
Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか? 本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文参考訳（メタデータ） (2024-06-23T15:15:17Z)
What Drives Performance in Multilingual Language Models? [1.7648680700685022]
本研究では,多言語多言語大言語モデル(MLLM)の性能に影響を及ぼす要因について検討した。 SIB-200データセットを用いて、マスキング言語モデル、自己回帰モデル、命令調整LDMを含む6つのMLLMについて検討した。
論文参考訳（メタデータ） (2024-04-29T23:49:19Z)
The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文参考訳（メタデータ） (2023-08-31T17:43:08Z)
Extrapolating Large Language Models to Non-English by Aligning Languages [109.09051737966178]
既存の大きな言語モデルは、異なる言語間で異なる能力を示す。本稿では,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習したLLMを強化する。
論文参考訳（メタデータ） (2023-08-09T13:32:06Z)
Improving Polish to English Neural Machine Translation with Transfer Learning: Effects of Data Volume and Language Similarity [2.4674086273775035]
機械翻訳作業におけるデータ量と類似言語の使用が伝達学習に与える影響について検討する。 OPUS-100データセットを用いてポーランド語と英語の翻訳タスクに対してmBARTモデルを微調整する。実験の結果、関連する言語と大量のデータの組み合わせは、関連する言語や大量のデータだけで訓練されたモデルよりも優れていることがわかった。
論文参考訳（メタデータ） (2023-06-01T13:34:21Z)
Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。 1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文参考訳（メタデータ） (2023-03-14T17:05:08Z)
Adapting Multilingual Speech Representation Model for a New, Underresourced Language through Multilingual Fine-tuning and Continued Pretraining [2.3513645401551333]
既存の多言語wav2vec 2.0モデルを新しい言語に適用する可能性を検討する。この結果から, 継続事前学習がwav2vec 2.0モデルを新しい言語に適応させる最も効果的な方法であることが示唆された。関連言語の種類や類似した音韻特性を持つ非関連言語で事前訓練されたモデルが利用可能である場合,その言語からの付加データを用いた多言語微調整は,音声認識性能に肯定的な影響を及ぼす可能性がある。
論文参考訳（メタデータ） (2023-01-18T03:57:53Z)
Languages You Know Influence Those You Learn: Impact of Language Characteristics on Multi-Lingual Text-to-Text Transfer [4.554080966463776]
マルチ言語モデル (LM) は低リソース言語での自然言語処理の実現に成功している。このようなモデル、特にmT5は、言語間の言語的および意味的な知識をどう転送するかをよりよく理解しようとしています。この研究の鍵となる発見は、構文、形態学、音韻学の類似性が言語間移動のよい予測因子であることである。
論文参考訳（メタデータ） (2022-12-04T07:22:21Z)
Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of Multilingual Language Models [73.11488464916668]
本研究では,多言語事前学習プロセスのダイナミクスについて検討する。我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
論文参考訳（メタデータ） (2022-05-24T03:35:00Z)
Cross-lingual Machine Reading Comprehension with Language Branch Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。 LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文参考訳（メタデータ） (2020-10-27T13:12:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。