Fugu-MT 論文翻訳(概要): Need a Small Specialized Language Model? Plan Early!

論文の概要: Need a Small Specialized Language Model? Plan Early!

arxiv url: http://arxiv.org/abs/2402.01093v2
Date: Thu, 31 Oct 2024 15:56:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:30.522171
Title: Need a Small Specialized Language Model? Plan Early!
Title（参考訳）: 小さな特化言語モデルが必要か?
Authors: David Grangier, Angelos Katharopoulos, Pierre Ablin, Awni Hannun,
Abstract要約: 本稿では,大規模で汎用的で事前学習可能なデータセットと特殊化データを用いて,優れた特殊化された小言語モデルを得る方法について検討する。我々は、(i)各専門化タスクのモデルを事前訓練する余裕があるか、(ii)各タスクに1つの事前訓練されたモデルを安価に適応させたいか、という2つのシナリオを考察する。
参考スコア（独自算出の注目度）: 24.387464967171685
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models are versatile tools but are not suitable for small inference budgets. Small models have more efficient inference, but their lower capacity means that their performance can be good only if one limits their scope to a specialized domain. This paper explores how to get good specialized small language models using a large, generic, pretraining set and a limited amount of specialized data. We consider two scenarios, depending on whether (i) one can afford pretraining a model for each specialization task, or (ii) one wants to cheaply adapt a single pretrained model for each task. In the first scenario, we propose an effective solution based on importance sampling: we resample the pretraining set to imitate the specialization data and train a small model on it. In the second scenario, we propose a novel architecture, projected networks (PN). PN is a large network whose parameters can be linearly projected into a small network for specialization. For both scenarios, we demonstrate the empirical effectiveness of our solutions across various domains, training set sizes, and training budgets.
Abstract（参考訳）: 大規模言語モデルは汎用ツールであるが、小規模な推論予算には適さない。小型モデルはより効率的な推論を行うが、その低い能力は、その範囲を特定のドメインに限定した場合に限り、その性能が良いことを意味する。本稿では,大規模で汎用的な事前学習セットと限られた量の専門データを用いて,優れた特殊小言語モデルを得る方法について検討する。私たちは2つのシナリオを検討します。一特化業務ごとに模型を予習することができること、又は (二)タスクごとに1つの事前訓練されたモデルを安価に適応させたい。第1のシナリオでは、重要サンプリングに基づく効果的なソリューションを提案する。我々は、事前学習セットを再サンプリングし、特殊化データを模倣し、その上に小さなモデルを訓練する。第2のシナリオでは、新しいアーキテクチャ、プロジェクテッド・ネットワーク(PN)を提案する。 PNは、パラメータを小さなネットワークに線形に投影して特殊化することができる大きなネットワークである。どちらのシナリオでも、さまざまなドメインにわたるソリューションの実証的な有効性、トレーニングセットのサイズ、トレーニング予算を示します。

関連論文リスト

Do We Need to Design Specific Diffusion Models for Different Tasks? Try ONE-PIC [77.8851460746251]
本稿では,超音速拡散モデルに対する単純,効率的,汎用的なアプローチを提案する。 ONE-PICは、追加モジュールを導入することなく、事前訓練された拡散モデルにおける継承された生成能力を向上する。本手法は,適応プロセスの合理化を図り,低コストで優れた性能を実現する,シンプルで効率的な手法である。
論文参考訳（メタデータ） (2024-12-07T11:19:32Z)
Task-Adaptive Pretrained Language Models via Clustered-Importance Sampling [21.762562172089236]
代わりに、大規模なジェネラリストのトレーニングセットからスペシャリストモデルを構築します。我々は、限られたドメイン固有データからのガイダンスにより、ジェネリストデータのトレーニング分布を調整する。スケーラブルで、事前トレーニングと継続事前トレーニングに適しており、マルチタスク設定でうまく機能する。
論文参考訳（メタデータ） (2024-09-30T20:49:54Z)
Get more for less: Principled Data Selection for Warming Up Fine-Tuning in LLMs [18.242110417706]
この研究は、膨大なラベルのないオープンデータから事前訓練された言語モデルへの活用と選択に焦点を当てている。特定の条件下での微調整タスクに対するこのアプローチの最適性を示す。提案手法は既存の手法よりもはるかに高速で,GPU時間内に数百万のサンプルにスケールアップする。
論文参考訳（メタデータ） (2024-05-05T00:08:00Z)
Irreducible Curriculum for Language Model Pretraining [46.895234111411426]
本稿では,言語モデル事前学習のためのカリキュラム学習アルゴリズムとして,既約カリキュラムを提案する。 RedPajama-1Bデータセットに関する我々の実験は、すべての7つの領域で検証の難易度が一貫した改善を示した。
論文参考訳（メタデータ） (2023-10-23T22:41:33Z)
eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文参考訳（メタデータ） (2023-03-20T19:20:34Z)
Specializing Smaller Language Models towards Multi-Step Reasoning [56.78474185485288]
GPT-3.5 (ge$ 175B) から T5 変種 (le$ 11B) までを蒸留できることを示す。対象タスクに対するモデルの能力を専門化するモデル特殊化を提案する。
論文参考訳（メタデータ） (2023-01-30T08:51:19Z)
bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。 bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文参考訳（メタデータ） (2021-10-14T04:05:25Z)
Data Summarization via Bilevel Optimization [48.89977988203108]
シンプルだが強力なアプローチは、小さなサブセットのデータを操作することだ。本研究では,コアセット選択を基数制約付き双レベル最適化問題として定式化する汎用コアセットフレームワークを提案する。
論文参考訳（メタデータ） (2021-09-26T09:08:38Z)
Adapt-and-Distill: Developing Small, Fast and Effective Pretrained Language Models for Domains [45.07506437436464]
本稿では、特定のドメインに対して、小型で高速かつ効果的に事前訓練されたモデルを開発するための一般的なアプローチを提案する。これは、既成の一般訓練モデルに適応し、ターゲットドメインでタスク非依存の知識蒸留を行うことによって達成される。
論文参考訳（メタデータ） (2021-06-25T07:37:05Z)
Don't Stop Pretraining: Adapt Language Models to Domains and Tasks [81.99843216550306]
バイオメディカルおよびコンピュータサイエンスの出版物、ニュース、レビュー)と8つの分類タスクについて調査する。ドメイン内の事前トレーニング(ドメイン適応型事前トレーニング)の第2フェーズでは、パフォーマンスが向上する。タスクの未ラベルデータ(タスク適応事前トレーニング)に適応することで、ドメイン適応事前トレーニング後のパフォーマンスが向上する。
論文参考訳（メタデータ） (2020-04-23T04:21:19Z)
Exploring Versatile Generative Language Model Via Parameter-Efficient Transfer Learning [70.81910984985683]
本稿では,1つの大規模事前学習モデルを用いて,複数のダウンストリーム生成タスクを同時に微調整する効果的な方法を提案する。 5つの多様な言語生成タスクの実験は、各タスクに2-3%のパラメータを追加するだけで、モデル全体の微調整性能を維持または改善できることを示している。
論文参考訳（メタデータ） (2020-04-08T06:18:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。