論文の概要: Vocabulary Expansion of Chat Models with Unlabeled Target Language Data
- arxiv url: http://arxiv.org/abs/2412.11704v1
- Date: Mon, 16 Dec 2024 12:26:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 14:01:34.130562
- Title: Vocabulary Expansion of Chat Models with Unlabeled Target Language Data
- Title(参考訳): 未ラベルターゲット言語データを用いたチャットモデルの語彙展開
- Authors: Atsuki Yamaguchi, Terufumi Morishita, Aline Villavicencio, Nikolaos Aletras,
- Abstract要約: チャットモデル(つまり、人間との会話を通じて指示に従うために訓練された言語モデル)は、会話と一般的なタスク解決能力の両方において、ベースモデル(すなわち、ラベルなしデータにのみ訓練された)より優れている。
これらのモデルは一般的に英語中心であり、トレーニングデータから不足している言語や欠落している言語にさらに適応する必要がある。
そこで本研究では,本手法の有効性を明らかにする実験を行い,87%のケースにおいて,適合モデルが性能改善を達成するのに有効であることを示す。
- 参考スコア(独自算出の注目度): 38.341705137026985
- License:
- Abstract: Chat models (i.e. language models trained to follow instructions through conversation with humans) outperform base models (i.e. trained solely on unlabeled data) in both conversation and general task-solving abilities. These models are generally English-centric and require further adaptation for languages that are underrepresented in or absent from their training data. A common technique for adapting base models is to extend the model's vocabulary with target language tokens, i.e. vocabulary expansion (VE), and then continually pre-train it on language-specific data. Using chat data is ideal for chat model adaptation, but often, either this does not exist or is costly to construct. Alternatively, adapting chat models with unlabeled data is a possible solution, but it could result in catastrophic forgetting. In this paper, we investigate the impact of using unlabeled target language data for VE on chat models for the first time. We first show that off-the-shelf VE generally performs well across target language tasks and models in 71% of cases, though it underperforms in scenarios where source chat models are already strong. To further improve adapted models, we propose post-hoc techniques that inject information from the source model without requiring any further training. Experiments reveal the effectiveness of our methods, helping the adapted models to achieve performance improvements in 87% of cases.
- Abstract(参考訳): チャットモデル(つまり、人間との会話を通じて指示に従うために訓練された言語モデル)は、会話と一般的なタスク解決能力の両方において、ベースモデル(すなわち、ラベルなしデータにのみ訓練された)より優れている。
これらのモデルは一般的に英語中心であり、トレーニングデータから不足している言語や欠落している言語にさらに適応する必要がある。
ベースモデルを適用するための一般的なテクニックは、モデルの語彙をターゲット言語トークン、すなわち語彙拡張(VE)で拡張し、言語固有のデータで継続的に事前訓練することである。
チャットデータを使用することは、チャットモデルの適応には理想的ですが、多くの場合、それが存在しないか、構築にコストがかかるかのいずれかです。
あるいは、ラベルのないデータでチャットモデルを適用することも考えられるが、大惨事に陥る可能性がある。
本稿では,VEにおける未ラベルのターゲット言語データの利用が,チャットモデルに与える影響を初めて検討する。
当初、オフザシェルフVEは、71%のケースでターゲット言語タスクやモデルに対して良好に機能することを示したが、ソースチャットモデルがすでに強力であるシナリオでは性能が劣っている。
適応モデルをさらに改良するために,学習を必要とせずにソースモデルから情報を注入するポストホック手法を提案する。
実験の結果,本手法の有効性が明らかとなり,87%のケースにおいて,適応モデルによる性能改善を支援することができた。
関連論文リスト
- Robustifying Language Models with Test-Time Adaptation [17.96043752001886]
大規模言語モデルは、多くの言語タスクに対して最先端のパフォーマンスを達成した。
これらは、言語モデルを騙すように最適化された文であるが、人間に類似した意味を持つ、敵対的な言語の例では失敗する。
入力文をマスキングされた単語からの予測に適応させることで,多くの言語敵対攻撃を逆転させることができることを示す。
論文 参考訳(メタデータ) (2023-10-29T22:37:54Z) - Qwen Technical Report [132.54304067403922]
当社の大規模言語モデルシリーズの最初のインストールであるQwenを紹介します。
Qwenはトレーニング済みの言語モデルの基本であり、Qwen-Chatは人間のアライメント技術で微調整されたチャットモデルである。
また、コーディング特化モデルであるCode-QwenとCode-Qwen-Chatも開発し、数学に焦点を当てたMath-Qwen-Chatも開発しました。
論文 参考訳(メタデータ) (2023-09-28T17:07:49Z) - Contrastive Alignment of Vision to Language Through Parameter-Efficient
Transfer Learning [60.26952378997713]
コントラスト的視覚言語モデル(例えばCLIP)は、コントラスト的トレーニングを通じて視覚モデルと言語モデルの全てのパラメータを更新することによって作成される。
パラメータ更新の最小セット($7%)が、フルモデルトレーニングと同じパフォーマンスを実現可能であることを示す。
既存の知識がパラメータ効率のトレーニングにおいてより強く保存されていることを示す。
論文 参考訳(メタデータ) (2023-03-21T14:12:08Z) - Efficient Language Model Training through Cross-Lingual and Progressive
Transfer Learning [0.7612676127275795]
ほとんどのトランスフォーマー言語モデルは英語のテキストで事前訓練されている。
モデルのサイズが大きくなるにつれて、英語と他の言語のパフォーマンスギャップはさらに大きくなる。
我々はCLP-Transferと呼ばれる言語横断的・進行的トランスファー学習手法を導入する。
論文 参考訳(メタデータ) (2023-01-23T18:56:12Z) - Pre-Training a Language Model Without Human Language [74.11825654535895]
先行学習データの本質的性質が下流性能の微調整にどのように寄与するかを検討する。
非構造化データで事前に訓練されたモデルは、下流のタスクでゼロから訓練されたモデルに勝った。
驚くべきことに、特定の非人間言語データの事前トレーニングがGLUEのパフォーマンスを他の非英語言語で事前トレーニングされたパフォーマンスに近づけることを明らかにしました。
論文 参考訳(メタデータ) (2020-12-22T13:38:06Z) - Detecting and Exorcising Statistical Demons from Language Models with
Anti-Models of Negative Data [13.392212395386933]
モデルファミリー内では、パラメータの数、訓練エポック数、データセットのサイズが増加するため、モデルが負のn-gramデータに一般化する能力がある。
本稿では,このような望ましくない信号を正のデータから自動的に学習した負のデータ分布で減衰させる帰納バイアスの形式を提案する。
論文 参考訳(メタデータ) (2020-10-22T16:45:32Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。