Fugu-MT 論文翻訳(概要): A Practical Guide to Fine-tuning Language Models with Limited Data

論文の概要: A Practical Guide to Fine-tuning Language Models with Limited Data

arxiv url: http://arxiv.org/abs/2411.09539v1
Date: Thu, 14 Nov 2024 15:55:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:47.753489
Title: A Practical Guide to Fine-tuning Language Models with Limited Data
Title（参考訳）: 限定データを用いた微調整言語モデルの実践的ガイド
Authors: Márton Szép, Daniel Rueckert, Rüdiger von Eisenhart-Rothe, Florian Hinterwimmer,
Abstract要約: 事前訓練されたLarge Language Models (LLM) を採用することは、膨大なデータ要件にもかかわらず、自然言語処理(NLP)における事実上の標準となっている。限られたデータを用いたLLMの学習に焦点をあてた最近の研究の急増に触発された本研究では、データ不足の下流タスクにおけるモデル性能を最適化するための、近年のトランスファー学習アプローチについて調査する。
参考スコア（独自算出の注目度）: 9.413178499853156
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Employing pre-trained Large Language Models (LLMs) has become the de facto standard in Natural Language Processing (NLP) despite their extensive data requirements. Motivated by the recent surge in research focused on training LLMs with limited data, particularly in low-resource domains and languages, this paper surveys recent transfer learning approaches to optimize model performance in downstream tasks where data is scarce. We first address initial and continued pre-training strategies to better leverage prior knowledge in unseen domains and languages. We then examine how to maximize the utility of limited data during fine-tuning and few-shot learning. The final section takes a task-specific perspective, reviewing models and methods suited for different levels of data scarcity. Our goal is to provide practitioners with practical guidelines for overcoming the challenges posed by constrained data while also highlighting promising directions for future research.
Abstract（参考訳）: 事前訓練されたLarge Language Models (LLM) を採用することは、膨大なデータ要件にもかかわらず、自然言語処理(NLP)における事実上の標準となっている。限られたデータ、特に低リソース領域や言語におけるLLMの訓練に焦点をあてた最近の研究の急増に触発された本研究では、データ不足の下流タスクにおけるモデル性能を最適化するための、近年のトランスファー学習アプローチについて調査する。まず、未確認のドメインや言語における事前知識をよりよく活用するために、初期および継続した事前学習戦略に対処する。次に、微調整および数発の学習において、限られたデータの有用性を最大化する方法について検討する。最終章では、さまざまなレベルのデータ不足に合ったモデルとメソッドをレビューして、タスク固有の視点を取ります。我々のゴールは、制約されたデータによる課題を克服するための実践的ガイドラインを実践者に提供し、将来的な研究の方向性を明らかにすることである。

関連論文リスト

LLM Post-Training: A Deep Dive into Reasoning Large Language Models [131.10969986056]
大規模言語モデル (LLMs) は自然言語処理の状況を変え、多様な応用をもたらした。ポストトレーニング手法により、LLMは知識を洗練させ、推論を改善し、事実の正確性を高め、ユーザの意図や倫理的配慮をより効果的に整合させることができる。
論文参考訳（メタデータ） (2025-02-28T18:59:54Z)
LLMs for Generalizable Language-Conditioned Policy Learning under Minimal Data Requirements [50.544186914115045]
本稿では,オフライン言語によるポリシー学習のための新しいトレーニングパイプラインTEDUOを提案する。 TEDUOは、分かりやすい、ラベルなしのデータセットを運用し、いわゆるインザワイルド評価(in-the-wild evaluation)に適している。
論文参考訳（メタデータ） (2024-12-09T18:43:56Z)
Using Large Language Models for Expert Prior Elicitation in Predictive Modelling [53.54623137152208]
本研究では,大規模言語モデル (LLM) を用いて予測モデルの事前分布を推定する手法を提案する。本研究では,LLMがパラメータ分布を真に生成するかどうかを評価するとともに,文脈内学習と事前推論のためのモデル選択戦略を提案する。その結果,LLMによる事前パラメータ分布は,低データ設定における非形式的先行よりも予測誤差を著しく低減することがわかった。
論文参考訳（メタデータ） (2024-11-26T10:13:39Z)
Unsupervised Data Validation Methods for Efficient Model Training [0.0]
自然言語処理(NLP)、テキスト音声処理(TTS)、音声テキスト処理(STT)、視覚言語モデル(VLM)は大規模なデータセットに大きく依存している。本研究では,「品質データ」の定義,適切なデータ生成方法の開発,モデルトレーニングへのアクセシビリティ向上など,重要な分野について検討する。
論文参考訳（メタデータ） (2024-10-10T13:00:53Z)
Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
Learn-Focus-Review(LFR)は、モデルの学習進捗に適応する動的トレーニングアプローチである。 LFRは、データブロック(トークンのシーケンス)にわたるモデルの学習パフォーマンスを追跡し、データセットの困難な領域を再検討する。フルデータセットでトレーニングされたベースラインモデルと比較して、LFRは一貫して低いパープレキシティと高い精度を達成した。
論文参考訳（メタデータ） (2024-09-10T00:59:18Z)
Bridging the Bosphorus: Advancing Turkish Large Language Models through Strategies for Low-Resource Language Adaptation and Benchmarking [1.3716808114696444]
大規模言語モデル(LLM)は様々な分野において重要になってきており、表現不足の言語における高品質なモデルの緊急性を強調している。本研究では、データ不足、モデル選択、評価、計算制限など、低リソース言語が直面する固有の課題について検討する。
論文参考訳（メタデータ） (2024-05-07T21:58:45Z)
Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文参考訳（メタデータ） (2024-04-11T04:22:15Z)
Unleashing the Potential of Large Language Models for Predictive Tabular Tasks in Data Science [17.910306140400046]
この研究は、これらの予測タスクにLarge Language Models (LLM)を適用する試みである。本研究の目的は,Llama-2 の大規模学習を行う上で,注釈付きテーブルの包括的コーパスをコンパイルすることで,このギャップを緩和することにある。
論文参考訳（メタデータ） (2024-03-29T14:41:21Z)
EcomGPT-CT: Continual Pre-training of E-commerce Large Language Models with Semi-structured Data [67.8302955948861]
大規模コーパスで事前訓練された大規模言語モデル(LLM)は、様々なNLPタスクにおいて顕著な性能を示した。これらのモデルを特定のドメインに適用しても、ドメイン知識の欠如など、大きな課題が生じる。我々は、Eコマースドメインを例として用いたLLMのドメイン固有の継続事前学習に焦点を当てた。
論文参考訳（メタデータ） (2023-12-25T11:31:47Z)
Low-Rank Adaptation for Multilingual Summarization: An Empirical Study [60.541168233698194]
私たちはその可能性を調査する。多言語要約領域におけるローランド適応(LoRA)に着目した効率的なファインチューニングハイデータやローデータの設定、言語間転送など、さまざまなデータ可用性シナリオに関する広範な調査を行います。以上の結果から,LoRAは大量のデータでトレーニングされた場合の完全な微調整と競合し,低データシナリオや言語間転送に優れることがわかった。
論文参考訳（メタデータ） (2023-11-14T22:32:39Z)
LMPriors: Pre-Trained Language Models as Task-Specific Priors [78.97143833642971]
適切な事前条件でモデルを拡張するための原則的手法を開発した。これは、世界に対する私たちの理解と相容れない方法で学ぶことを奨励するものです。我々は,近年の大規模言語モデル(LM)の成功から着想を得た。
論文参考訳（メタデータ） (2022-10-22T19:09:18Z)
Recent Advances in Natural Language Processing via Large Pre-Trained Language Models: A Survey [67.82942975834924]
BERTのような大規模で事前訓練された言語モデルは、自然言語処理(NLP)の分野を大きく変えた。本稿では,これらの大規模言語モデルを用いたNLPタスクの事前学習,微調整,プロンプト,テキスト生成といった手法を用いた最近の研究について紹介する。
論文参考訳（メタデータ） (2021-11-01T20:08:05Z)
Fine-tuning BERT for Low-Resource Natural Language Understanding via Active Learning [30.5853328612593]
本研究では,事前学習した Transformer ベースの言語モデル BERT の微調整手法について検討する。実験結果から,モデルの知識獲得度を最大化することで,モデル性能の優位性を示す。我々は、微調整中の言語モデルの凍結層の利点を分析し、トレーニング可能なパラメータの数を減らす。
論文参考訳（メタデータ） (2020-12-04T08:34:39Z)
A Survey on Recent Approaches for Natural Language Processing in Low-Resource Scenarios [30.391291221959545]
ディープニューラルネットワークと巨大な言語モデルが、自然言語アプリケーションにおいて一様化しつつある。大量のトレーニングデータを必要とすることで知られているため、低リソース環境でのパフォーマンスを改善するための作業が増えている。ニューラルモデルに対する最近の根本的な変化と、一般的なプレトレインおよびファインチューンパラダイムにより、低リソースの自然言語処理に対する有望なアプローチを調査した。
論文参考訳（メタデータ） (2020-10-23T11:22:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。