論文の概要: FreeLM: Fine-Tuning-Free Language Model
- arxiv url: http://arxiv.org/abs/2305.01616v1
- Date: Tue, 2 May 2023 17:17:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-03 13:29:08.727989
- Title: FreeLM: Fine-Tuning-Free Language Model
- Title(参考訳): FreeLM:ファインチューニングフリー言語モデル
- Authors: Xiang Li, Xin Jiang, Xuying Meng, Aixin Sun, Yequan Wang
- Abstract要約: FreeLMは、言語と強力なタスク対応の教師信号の両方を対話的に訓練する。
FreeLM は GPT-3 や InstructGPT といった大規模なモデルよりも、実験中の言語理解タスクに優れています。
- 参考スコア(独自算出の注目度): 34.050950713662324
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained language models (PLMs) have achieved remarkable success in NLP
tasks. Despite the great success, mainstream solutions largely follow the
pre-training then finetuning paradigm, which brings in both high deployment
costs and low training efficiency. Nevertheless, fine-tuning on a specific task
is essential because PLMs are only pre-trained with language signal from large
raw data. In this paper, we propose a novel fine-tuning-free strategy for
language models, to consider both language signal and teacher signal. Teacher
signal is an abstraction of a battery of downstream tasks, provided in a
unified proposition format. Trained with both language and strong task-aware
teacher signals in an interactive manner, our FreeLM model demonstrates strong
generalization and robustness. FreeLM outperforms large models e.g., GPT-3 and
InstructGPT, on a range of language understanding tasks in experiments. FreeLM
is much smaller with 0.3B parameters, compared to 175B in these models.
- Abstract(参考訳): 事前学習された言語モデル(plm)はnlpタスクで著しく成功した。
大きな成功にもかかわらず、主流のソリューションは、主に事前トレーニングと微調整のパラダイムに従っており、高いデプロイメントコストと低いトレーニング効率をもたらす。
とはいえ、PLMは大規模な生データからの言語信号でのみ事前訓練されているため、特定のタスクの微調整が不可欠である。
本稿では,言語信号と教師信号の両方を考慮した言語モデルの微調整フリー戦略を提案する。
教師信号は、統一命題形式で提供される下流タスクのバッテリーの抽象化である。
我々のFreeLMモデルは,言語とタスク認識の強い教師信号の両方を対話的に学習し,強力な一般化と堅牢性を示す。
FreeLM は GPT-3 や InstructGPT といった大規模なモデルよりも、実験中の言語理解タスクに優れています。
FreeLMは0.3Bパラメータよりもはるかに小さく、これらのモデルでは175Bである。
関連論文リスト
- Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - FiLM: Fill-in Language Models for Any-Order Generation [71.42044325886194]
Fill-in Language Model (FiLM) は、特定の生成順序に固執することなく任意の位置で柔軟な生成を可能にする新しい言語モデリング手法である。
推論中、FiLMは欠落したフレーズ、文、段落をシームレスに挿入できる。
FiLMは、再構成されたテキストセグメントでトレーニングされた左から右への言語モデルに依存する既存のインフィル手法よりも優れています。
論文 参考訳(メタデータ) (2023-10-15T19:37:39Z) - MicroBERT: Effective Training of Low-resource Monolingual BERTs through
Parameter Reduction and Multitask Learning [12.640283469603357]
トランスフォーマー言語モデル(TLM)は、ほとんどのNLPタスクには必須であるが、必要な事前学習データが多いため、低リソース言語では作成が困難である。
本研究では,低リソース環境下でモノリンガルなTLMを訓練する2つの手法について検討する。
7つの多様な言語から得られた結果から,私たちのモデルであるMicroBERTは,典型的なモノリンガルなTLM事前学習手法と比較して,下流タスク評価において顕著な改善を達成できたことが示唆された。
論文 参考訳(メタデータ) (2022-12-23T18:18:20Z) - WeLM: A Well-Read Pre-trained Language Model for Chinese [37.68378062625651]
WeLM: 中国語のためのよく読まれる事前学習型言語モデルを提案する。
WeLMには様々なドメインや言語に関する幅広い知識が備わっていることを示す。
論文 参考訳(メタデータ) (2022-09-21T14:05:30Z) - Prompt Tuning for Discriminative Pre-trained Language Models [96.04765512463415]
最近の研究は、自然言語処理(NLP)タスクに事前訓練言語モデル(PLM)を刺激する際の迅速なチューニングの有望な結果を示している。
ELECTRAのような差別的なPLMが、いかに効果的に迅速なチューニングが可能かは、まだ不明である。
DPTは,NLPタスクを識別言語モデリング問題に書き換える,識別型PLMの最初のプロンプトチューニングフレームワークである。
論文 参考訳(メタデータ) (2022-05-23T10:11:50Z) - Generating Training Data with Language Models: Towards Zero-Shot
Language Understanding [35.92571138322246]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて顕著な性能を示した。
NLUタスクのゼロショット学習に両タイプのPLMを用いる簡単な手法を提案する。
提案手法は,GLUEベンチマークの7つの分類タスクに対して高い性能を示す。
論文 参考訳(メタデータ) (2022-02-09T16:02:18Z) - NLP From Scratch Without Large-Scale Pretraining: A Simple and Efficient
Framework [10.656788279434798]
本稿では,大規模事前学習に依存しない,シンプルで効率的な学習フレームワーク TLM を提案する。
4つの領域の8つの分類データセットにおいて、TLMは事前訓練された言語モデルよりも良い結果が得られる。
論文 参考訳(メタデータ) (2021-11-07T17:13:59Z) - Language Models are Few-Shot Butlers [0.2538209532048867]
本稿では,実演から学ぶ2段階の手順を紹介し,環境との相互作用によりさらに改善する。
本稿では,alfworld環境における既存手法よりも言語モデルに精細な調整を施し,簡単な強化学習アルゴリズムにより51%の成功率を向上できることを示す。
論文 参考訳(メタデータ) (2021-04-16T08:47:07Z) - CSS-LM: A Contrastive Framework for Semi-supervised Fine-tuning of
Pre-trained Language Models [59.49705076369856]
プレトレーニング言語モデル(PLM)の微調整フェーズを改善するための新しいフレームワークを提案する。
大規模未ラベルコーパスから,タスクに対するドメインレベルおよびクラスレベルの意味的関連性に応じて,正および負のインスタンスを検索する。
次に、検索したラベル付きおよびオリジナルラベル付きの両方のインスタンスに対して、対照的な半教師付き学習を行い、PLMが重要なタスク関連セマンティックな特徴をキャプチャするのを助ける。
論文 参考訳(メタデータ) (2021-02-07T09:27:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。