論文の概要: Cross-Domain Content Generation with Domain-Specific Small Language Models
- arxiv url: http://arxiv.org/abs/2409.17171v2
- Date: Wed, 2 Oct 2024 10:28:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 16:50:22.100488
- Title: Cross-Domain Content Generation with Domain-Specific Small Language Models
- Title(参考訳): ドメイン特化小言語モデルを用いたクロスドメインコンテンツ生成
- Authors: Ankit Maloo, Abhinav Garg,
- Abstract要約: そこで本研究では,2つのドメインに対して,コーヒーレントかつ関連する出力を生成するための小言語モデルを提案する。
それぞれのデータセットに合わせてカスタマイズされたカスタムトークン化ツールを利用することで、生成品質が大幅に向上することがわかった。
凍結層による知識拡張は,小言語モデルがドメイン固有のコンテンツを生成するのに有効な方法であることを示す。
- 参考スコア(独自算出の注目度): 3.2772349789781616
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Generating domain-specific content using small language models poses challenges, especially when dealing with multiple distinct datasets with minimal overlap. In this study, we explore methods to enable a small language model to produce coherent and relevant outputs for two different domains: stories (Dataset A) and recipes (Dataset B). Our initial experiments show that training individual models on each dataset yields satisfactory results, with each model generating appropriate content within its domain. We find that utilizing custom tokenizers tailored to each dataset significantly enhances generation quality compared to using a generic tokenizer. Attempts to adapt a single model to both domains using Low-Rank Adaptation (LoRA) or standard fine-tuning do not yield substantial results, often failing to produce meaningful outputs. Moreover, full fine-tuning without freezing the model's existing weights leads to catastrophic forgetting, where the model loses previously learned information and only retains knowledge from the new data. To overcome these challenges, we employ a knowledge expansion strategy: training only with additional parameters. This approach enables the model to generate both stories and recipes upon request, effectively handling multiple domains without suffering from catastrophic forgetting. Our findings demonstrate that knowledge expansion with frozen layers is an effective method for small language models to generate domain-specific content across distinct datasets. This work contributes to the development of efficient multi-domain language models and provides insights into managing catastrophic forgetting in small-scale architectures.
- Abstract(参考訳): 小さな言語モデルを使用してドメイン固有のコンテンツを生成することは、特に重複を最小限にした複数の異なるデータセットを扱う場合、課題となる。
本研究では,小さな言語モデルを用いて,ストーリ(データセットA)とレシピ(データセットB)の2つの異なる領域に対して,一貫性と関連する出力を生成する方法を検討する。
最初の実験では、各データセット上で個々のモデルをトレーニングすると満足な結果が得られ、各モデルはドメイン内で適切なコンテンツを生成する。
それぞれのデータセットに合わせてカスタマイズされたカスタムトークン化ツールを利用することで、ジェネリックトークン化ツールに比べて生成品質が大幅に向上することがわかった。
Low-Rank Adaptation (LoRA) や標準微調整を用いて、両方のドメインに単一モデルを適用しようとする試みは、大きな成果を出さず、しばしば有意義な出力を得られない。
さらに、モデルの既存の重みを凍結することなく完全な微調整を行うと、それまでの学習情報を失い、新しいデータからのみ知識を保持するという破滅的な忘れ込みが発生する。
これらの課題を克服するために、我々は知識拡張戦略、すなわち、追加のパラメータでのみ訓練する。
このアプローチにより、モデルは要求に応じてストーリーとレシピの両方を生成することができ、破滅的な忘れに苦しむことなく、複数のドメインを効果的に扱うことができる。
凍結層を用いた知識拡張は,小言語モデルにおいて,異なるデータセット間でドメイン固有のコンテンツを生成するのに有効な方法であることを示す。
この研究は、効率的なマルチドメイン言語モデルの開発に寄与し、小規模アーキテクチャにおける破滅的な忘れの管理に関する洞察を提供する。
関連論文リスト
- Learning to Generalize Unseen Domains via Multi-Source Meta Learning for Text Classification [71.08024880298613]
テキスト分類の多元的領域一般化について検討する。
本稿では、複数の参照ドメインを使用して、未知のドメインで高い精度を達成可能なモデルをトレーニングするフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-20T07:46:21Z) - Adapting Large Language Models for Content Moderation: Pitfalls in Data
Engineering and Supervised Fine-tuning [79.53130089003986]
大規模言語モデル(LLM)は、様々なドメインでタスクを処理するための実現可能なソリューションとなっている。
本稿では、コンテンツモデレーションのためにプライベートにデプロイ可能なLLMモデルを微調整する方法を紹介する。
論文 参考訳(メタデータ) (2023-10-05T09:09:44Z) - Heterogeneous Federated Learning Using Knowledge Codistillation [23.895665011884102]
本稿では、プール全体における小さなモデルと、より高いキャパシティを持つクライアントのサブセットにおけるより大きなモデルをトレーニングする手法を提案する。
モデルは、パラメータを共有することなく、サーバ上のラベルなしデータセットを利用して、知識蒸留を介して情報を双方向に交換する。
論文 参考訳(メタデータ) (2023-10-04T03:17:26Z) - Synthetic Data Generation in Low-Resource Settings via Fine-Tuning of
Large Language Models [15.991777903345575]
大規模な言語モデルは、比較的少ないラベル付き例で下流タスクを一般化することができる。
あるいは、ラベル付きサンプルを十分に微調整すれば、より小さなモデルで特定のタスクを解くことができる。
我々は、より小さなモデルの下流性能を改善するために、微調整教師LEMを用いた微調整訓練データの合成データ生成について検討した。
論文 参考訳(メタデータ) (2023-10-02T11:49:05Z) - Exploring Distributional Shifts in Large Language Models for Code
Analysis [36.73114441988879]
コード機能を持つ3つの大規模言語モデルがどのようにドメイン外データに一般化するかを検討する。
コード要約とコード生成という,2つの基本的なアプリケーションについて検討する。
複数のドメインに適応したモデルが同時に、単一のドメインに適応したモデルと同等に動作していることが分かりました。
論文 参考訳(メタデータ) (2023-03-16T07:45:46Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Multi-Domain Long-Tailed Learning by Augmenting Disentangled
Representations [80.76164484820818]
多くの現実世界の分類問題には、避けられない長い尾のクラスバランスの問題がある。
本稿では,この多領域長鎖学習問題について検討し,すべてのクラスとドメインにまたがってよく一般化されたモデルを作成することを目的とする。
TALLYは、選択的均衡サンプリング戦略に基づいて、ある例のセマンティック表現と別の例のドメイン関連ニュアンスを混合することでこれを達成している。
論文 参考訳(メタデータ) (2022-10-25T21:54:26Z) - CHALLENGER: Training with Attribution Maps [63.736435657236505]
ニューラルネットワークのトレーニングに属性マップを利用すると、モデルの正規化が向上し、性能が向上することを示す。
特に、我々の汎用的なドメインに依存しないアプローチは、ビジョン、自然言語処理、時系列タスクにおける最先端の結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-05-30T13:34:46Z) - Domain Adaptation for Learning Generator from Paired Few-Shot Data [72.04430033118426]
十分なソースデータと少数のターゲットデータを持つジェネレータを学習するためのペアドフェーショットGAN(PFS-GAN)モデルを提案する。
提案手法は,複数のベースラインと比較して,より多様性の高い生成対象ドメインデータに対して,定量的,定性的な結果が得られる。
論文 参考訳(メタデータ) (2021-02-25T10:11:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。