論文の概要: Train More Parameters But Mind Their Placement: Insights into Language Adaptation with PEFT
- arxiv url: http://arxiv.org/abs/2412.12674v1
- Date: Tue, 17 Dec 2024 08:44:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:59:34.425309
- Title: Train More Parameters But Mind Their Placement: Insights into Language Adaptation with PEFT
- Title(参考訳): より多くのパラメータを学習する - PEFTによる言語適応への視点
- Authors: Jenny Kunz,
- Abstract要約: 我々は、構造化されていないテキストコーパスを用いて、LLMの生成性能を向上させることを目的としている。
トレーニング可能なパラメータの数が増加すると、言語適応性が向上し、堅牢になる。
0ショットの要約では改善は一貫しているが、いくつかの適応されたモデルは、より長いコンテキストの長さで苦労する。
- 参考スコア(独自算出の注目度): 0.8702432681310401
- License:
- Abstract: Smaller LLMs still face significant challenges even in medium-resourced languages, particularly when it comes to language-specific knowledge -- a problem not easily resolved with machine-translated data. In this case study on Icelandic, we aim to enhance the generation performance of an LLM by specialising it using unstructured text corpora. A key focus is on preventing interference with the models' capabilities of handling longer context during this adaptation. Through ablation studies using various parameter-efficient fine-tuning (PEFT) methods and setups, we find that increasing the number of trainable parameters leads to better and more robust language adaptation. LoRAs placed in the feed-forward layers and bottleneck adapters show promising results with sufficient parameters, while prefix tuning and (IA)3 are not suitable. Although improvements are consistent in 0-shot summarisation, some adapted models struggle with longer context lengths, an issue that can be mitigated by adapting only the final layers.
- Abstract(参考訳): より小さな LLM は,特に言語固有の知識に関しては,特に機械翻訳データでは容易に解決できないような,中規模のリソースを持つ言語においても,依然として重大な課題に直面しています。
アイスランドの事例研究では、構造化されていないテキストコーパスを用いてLLMの生成性能を向上させることを目的としている。
重要な焦点は、この適応の間、より長いコンテキストを扱うモデルの能力に対する干渉を防ぐことである。
各種パラメータ効率細調整法(PEFT)とセットアップを用いたアブレーション研究により、トレーニング可能なパラメータの数が増加すると、言語適応性が向上し、より堅牢になることがわかった。
フィードフォワード層とボトルネックアダプタに配置されたLORAは、十分なパラメータを持つ有望な結果を示すが、プレフィックスチューニングと(IA)3は適さない。
改善は0ショットの要約では一貫性があるが、いくつかの適応されたモデルは、最終レイヤのみを適用することで緩和できる問題である、より長いコンテキスト長に苦しむ。
関連論文リスト
- Small Models, Big Impact: Efficient Corpus and Graph-Based Adaptation of Small Multilingual Language Models for Low-Resource Languages [10.418542753869433]
低リソース言語(LRL)は、限られたデータのために自然言語処理(NLP)において重大な課題に直面している。
現在の最先端の大規模言語モデル(LLM)は、まだLRLと競合している。
mBERTやXLM-Rのような小さなマルチリンガルモデル(mLM)は、トレーニングデータサイズに適合する能力が向上するため、より有望である。
論文 参考訳(メタデータ) (2025-02-14T13:10:39Z) - How to Learn a New Language? An Efficient Solution for Self-Supervised Learning Models Unseen Languages Adaption in Low-Resource Scenario [72.02391485962127]
音声認識(ASR)における音声自己監視学習(SSL)モデルの性能向上
低リソース言語 ASR では、事前訓練された言語と低リソース言語のドメインミスマッチ問題に遭遇する。
これらの問題に対処するためのアダプタに基づく従来型の効率的な微調整手法を拡張した。
論文 参考訳(メタデータ) (2024-11-27T10:51:00Z) - LANDeRMT: Detecting and Routing Language-Aware Neurons for Selectively Finetuning LLMs to Machine Translation [43.26446958873554]
大規模言語モデル(LLM)は,バイリンガルの監督が限られているにもかかわらず,多言語翻訳において有望な結果を示している。
大規模言語モデル(LLM)の最近の進歩は,バイリンガルの監督が限定された場合でも,多言語翻訳において有望な結果を示している。
LandeRMT は LLM を textbfMachine textbfTranslation に選択的に微調整するフレームワークである。
論文 参考訳(メタデータ) (2024-09-29T02:39:42Z) - R-SFLLM: Jamming Resilient Framework for Split Federated Learning with Large Language Models [83.77114091471822]
Split Federated Learning (SFL)は、分散機械学習(ML)における計算効率のパラダイムである。
SFLの課題は、特に無線チャネル上に展開する場合、送信されたモデルパラメータが相手のジャミングに感受性を持つことである。
これは、言語理解に不可欠である大規模言語モデル(LLM)における単語埋め込みパラメータに対して特に顕著である。
無線ネットワーク上でのLLM(R-SFLLM)を用いたレジリエンスSFLのための物理層フレームワークを開発した。
論文 参考訳(メタデータ) (2024-07-16T12:21:29Z) - Found in the Middle: How Language Models Use Long Contexts Better via
Plug-and-Play Positional Encoding [78.36702055076456]
本稿では,マルチスケール位置決めについて紹介する。
(Ms-PoE)は、シンプルで効果的なプラグアンドプレイ方式で、キャパシティを向上させる。
LLMはコンテキストの中央に位置する関連情報を扱う。
論文 参考訳(メタデータ) (2024-03-05T04:58:37Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - CHAPTER: Exploiting Convolutional Neural Network Adapters for
Self-supervised Speech Models [62.60723685118747]
自己教師付き学習(SSL)は、ラベルのないデータから表現を学習するための強力な技術である。
特徴抽出器にCNNアダプタを適用し,SSL音声モデルに特化して設計された効率的なチューニング手法を提案する。
特徴抽出器にCNNを追加することで、感情や話者のタスクへの適応が促進されることを実証的に見出した。
論文 参考訳(メタデータ) (2022-12-01T08:50:12Z) - Towards Parameter-Efficient Integration of Pre-Trained Language Models
In Temporal Video Grounding [37.199310579532884]
本稿では,TVG(Temporal Video Grounding)の課題について検討する。
TVGは、未トリミングビデオと自然言語による文クエリを前提として、ビデオ内のアクションインスタンスの時間的境界を認識し、決定することを目的としている。
最近の研究は、より高価なトレーニングを犠牲にして、大規模な事前学習言語モデル(PLM)によるクエリ入力を改善することで、この課題に対処している。
論文 参考訳(メタデータ) (2022-09-26T08:11:19Z) - Meta-Learning the Difference: Preparing Large Language Models for
Efficient Adaptation [11.960178399478718]
大規模な事前訓練言語モデル(PLM)は、しばしば細調整やプロンプトによってドメインまたはタスク適応される。
その代わりに、一般と適応のPLMの違いを学習することで、データおよびパラメータ効率の適応のためのPLMを作成する。
論文 参考訳(メタデータ) (2022-07-07T18:00:22Z) - Parameter-Efficient Neural Reranking for Cross-Lingual and Multilingual
Retrieval [66.69799641522133]
最先端のニューラルランカーは、お腹が空いていることで悪名高い。
現在のアプローチでは、英語データに基づいて訓練されたローダを、多言語エンコーダを用いて他の言語や言語間設定に転送するのが一般的である。
本研究では,Sparse Fine-Tuning Masks (SFTMs) とAdapters (Adapters) の2つのパラメータ効率のアプローチにより,より軽量で効果的なゼロショット転送が可能となることを示す。
論文 参考訳(メタデータ) (2022-04-05T15:44:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。