論文の概要: Exploring Continual Fine-Tuning for Enhancing Language Ability in Large Language Model
- arxiv url: http://arxiv.org/abs/2410.16006v1
- Date: Mon, 21 Oct 2024 13:39:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:13:18.211221
- Title: Exploring Continual Fine-Tuning for Enhancing Language Ability in Large Language Model
- Title(参考訳): 大規模言語モデルにおける言語能力向上のための連続的な微調整の探索
- Authors: Divyanshu Aggarwal, Sankarshan Damle, Navin Goyal, Satya Lokam, Sunayana Sitaram,
- Abstract要約: CFT(Continuous Fine-tuning)は、LLMを逐次微調整することで、モデルが下流のタスクに適応できるようにするプロセスである。
多言語データセット上で英語のみの細調整LDMを逐次微調整する2相CFTプロセスについて検討する。
第2相タスクと第1相タスクの類似性'''がLCMの適応性を決定することを観察する。
- 参考スコア(独自算出の注目度): 14.92282077647913
- License:
- Abstract: A common challenge towards the adaptability of Large Language Models (LLMs) is their ability to learn new languages over time without hampering the model's performance on languages in which the model is already proficient (usually English). Continual fine-tuning (CFT) is the process of sequentially fine-tuning an LLM to enable the model to adapt to downstream tasks with varying data distributions and time shifts. This paper focuses on the language adaptability of LLMs through CFT. We study a two-phase CFT process in which an English-only end-to-end fine-tuned LLM from Phase 1 (predominantly Task Ability) is sequentially fine-tuned on a multilingual dataset -- comprising task data in new languages -- in Phase 2 (predominantly Language Ability). We observe that the ``similarity'' of Phase 2 tasks with Phase 1 determines the LLM's adaptability. For similar phase-wise datasets, the LLM after Phase 2 does not show deterioration in task ability. In contrast, when the phase-wise datasets are not similar, the LLM's task ability deteriorates. We test our hypothesis on the open-source \mis\ and \llm\ models with multiple phase-wise dataset pairs. To address the deterioration, we analyze tailored variants of two CFT methods: layer freezing and generative replay. Our findings demonstrate their effectiveness in enhancing the language ability of LLMs while preserving task performance, in comparison to relevant baselines.
- Abstract(参考訳): LLM(Large Language Models)の適応性に対する一般的な課題は、モデルがすでに熟達している言語(通常は英語)において、モデルのパフォーマンスを妨げることなく、時間とともに新しい言語を学ぶ能力である。
CFT(Continuous Fine-tuning)は、LLMを逐次微調整することで、データ分散や時間シフトの異なる下流タスクにモデルを適応させるプロセスである。
本稿では,CFTによるLLMの言語適応性に着目した。
本稿では,第1相(タスク能力)から英語のみの細調整 LLM を第2相(言語能力)のタスクデータからなる多言語データセット上に順次微調整する2相CFTプロセスについて検討する。
第2相タスクの「相似性」がLCMの適応性を決定することを観察する。
同様のフェーズワイズデータセットでは、フェーズ2以降のLCMはタスク能力の劣化を示さない。
対照的に、フェーズワイズデータセットが似ていない場合、LCMのタスク能力は低下する。
我々は、複数のフェーズワイドデータセットペアを持つオープンソースの \mis\ と \llm\ モデルで仮説を検証した。
この劣化に対処するため、我々は2つのCFT法、層凍結法と生成再生法を調整した変種を解析した。
本研究は,LLMの言語能力向上とタスク性能の維持に有効であることを示すものである。
関連論文リスト
- SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - Exploring Design Choices for Building Language-Specific LLMs [36.32622880071991]
単言語モデルと多言語モデルを適用し,言語固有の言語モデルの構築について検討する。
適応前の初期性能が最終性能の指標であるとは限らないことが判明した。
最適適応法は非常に言語に依存しており、最も単純なアプローチは様々な実験環境においてうまく機能する。
論文 参考訳(メタデータ) (2024-06-20T18:47:43Z) - Adapting Large Language Models for Document-Level Machine Translation [46.370862171452444]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを大幅に進歩させた。
近年の研究では、中程度のLLMはタスク固有の微調整後、より大きなLLMよりも優れていることが示されている。
本研究では,特定の言語対に対する文書レベルの機械翻訳(DocMT)にLLMを適用することに焦点を当てた。
論文 参考訳(メタデータ) (2024-01-12T09:29:13Z) - LLM Augmented LLMs: Expanding Capabilities through Composition [56.40953749310957]
CALM -- 言語モデルの拡張のための構成 -- は、モデル間の相互アテンションを導入して、表現を構成し、新しい機能を有効にする。
低リソース言語で訓練されたより小さなモデルでPaLM2-Sを増強すると、英語への翻訳のようなタスクで最大13%の改善が達成される。
PaLM2-Sがコード固有モデルで拡張されると、コード生成や説明タスクのベースモデルよりも40%向上する。
論文 参考訳(メタデータ) (2024-01-04T18:53:01Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Scaling Sentence Embeddings with Large Language Models [43.19994568210206]
本研究では,文埋め込み性能の向上を目的としたテキスト内学習手法を提案する。
提案手法では,従来のプロンプトに基づく表現手法を自己回帰モデルに適用する。
モデルサイズをスケールすることで、数千億以上のパラメータへのスケーリングが意味的なテキスト類似性タスクのパフォーマンスを損なうことが分かる。
論文 参考訳(メタデータ) (2023-07-31T13:26:03Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - A Variational Hierarchical Model for Neural Cross-Lingual Summarization [85.44969140204026]
言語間の要約(英: cross-lingual summarization)とは、ある言語の文書を別の言語の要約に変換することである。
CLSに関する既存の研究は主にパイプライン手法の利用やエンドツーエンドモデルの共同トレーニングに重点を置いている。
条件付き変分自動エンコーダに基づくCLSタスクの階層モデルを提案する。
論文 参考訳(メタデータ) (2022-03-08T02:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。