論文の概要: Vocabulary Expansion of Chat Models with Unlabeled Target Language Data
- arxiv url: http://arxiv.org/abs/2412.11704v2
- Date: Wed, 18 Dec 2024 12:29:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 14:33:36.449722
- Title: Vocabulary Expansion of Chat Models with Unlabeled Target Language Data
- Title(参考訳): 未ラベルターゲット言語データを用いたチャットモデルの語彙展開
- Authors: Atsuki Yamaguchi, Terufumi Morishita, Aline Villavicencio, Nikolaos Aletras,
- Abstract要約: チャットモデル(つまり、人間との会話を通じて指示に従うために訓練された言語モデル)は、会話と一般的なタスク解決能力の両方において、ベースモデル(すなわち、ラベルなしデータにのみ訓練された)より優れている。
これらのモデルは一般的に英語中心であり、トレーニングデータから不足している言語や欠落している言語にさらに適応する必要がある。
そこで本研究では,本手法の有効性を明らかにする実験を行い,87%のケースにおいて,適合モデルが性能改善を達成するのに有効であることを示す。
- 参考スコア(独自算出の注目度): 38.341705137026985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chat models (i.e. language models trained to follow instructions through conversation with humans) outperform base models (i.e. trained solely on unlabeled data) in both conversation and general task-solving abilities. These models are generally English-centric and require further adaptation for languages that are underrepresented in or absent from their training data. A common technique for adapting base models is to extend the model's vocabulary with target language tokens, i.e. vocabulary expansion (VE), and then continually pre-train it on language-specific data. Using chat data is ideal for chat model adaptation, but often, either this does not exist or is costly to construct. Alternatively, adapting chat models with unlabeled data is a possible solution, but it could result in catastrophic forgetting. In this paper, we investigate the impact of using unlabeled target language data for VE on chat models for the first time. We first show that off-the-shelf VE generally performs well across target language tasks and models in 71% of cases, though it underperforms in scenarios where source chat models are already strong. To further improve adapted models, we propose post-hoc techniques that inject information from the source model without requiring any further training. Experiments reveal the effectiveness of our methods, helping the adapted models to achieve performance improvements in 87% of cases.
- Abstract(参考訳): チャットモデル(つまり、人間との会話を通じて指示に従うために訓練された言語モデル)は、会話と一般的なタスク解決能力の両方において、ベースモデル(すなわち、ラベルなしデータにのみ訓練された)より優れている。
これらのモデルは一般的に英語中心であり、トレーニングデータから不足している言語や欠落している言語にさらに適応する必要がある。
ベースモデルを適用するための一般的なテクニックは、モデルの語彙をターゲット言語トークン、すなわち語彙拡張(VE)で拡張し、言語固有のデータで継続的に事前訓練することである。
チャットデータを使用することは、チャットモデルの適応には理想的ですが、多くの場合、それが存在しないか、構築にコストがかかるかのいずれかです。
あるいは、ラベルのないデータでチャットモデルを適用することも考えられるが、大惨事に陥る可能性がある。
本稿では,VEにおける未ラベルのターゲット言語データの利用が,チャットモデルに与える影響を初めて検討する。
当初、オフザシェルフVEは、71%のケースでターゲット言語タスクやモデルに対して良好に機能することを示したが、ソースチャットモデルがすでに強力であるシナリオでは性能が劣っている。
適応モデルをさらに改良するために,学習を必要とせずにソースモデルから情報を注入するポストホック手法を提案する。
実験の結果,本手法の有効性が明らかとなり,87%のケースにおいて,適応モデルによる性能改善を支援することができた。
関連論文リスト
- Hidden in Plain Sight: Exploring Chat History Tampering in Interactive Language Models [12.920884182101142]
大規模言語モデル(LLM)は、実世界のアプリケーションで普及し、素晴らしいテキスト生成性能を示している。
LLMベースのチャットシステムは、対話的に振る舞うためには、事前に定義された構造に従って、事前のチャット履歴を入力のコンテキストとして統合する必要がある。
本稿では,目標モデルの事前知識を必要とせずに,LLM会話にユーザ提供履歴を注入するための体系的手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T16:36:47Z) - Why Not Transform Chat Large Language Models to Non-English? [57.16587777261422]
非英語データの不足は、非英語大言語モデル(LLM)の開発を制限する
TransLLMは、転送問題を変換チェーン・オブ・シント(translation chain of-of- Thought)でいくつかの一般的なサブタスクに分割する。
本手法は,シングルターンデータのみを用いて,マルチターンベンチマークMT-benchにおいて,強いベースラインとChatGPTより優れる。
論文 参考訳(メタデータ) (2024-05-22T18:53:25Z) - ChatEL: Entity Linking with Chatbots [11.944348800783834]
ChatELは、大規模言語モデルに正確な結果を返すための3段階のフレームワークである。
全体として、ChatELフレームワークは10データセットの平均F1パフォーマンスを2%以上改善している。
論文 参考訳(メタデータ) (2024-02-20T20:52:57Z) - Efficiently Adapting Pretrained Language Models To New Languages [9.33333013114014]
近年の大規模言語モデル (LLM) は低リソース言語に準最適性能を示す。
我々は,既存の学習済みLLMをこれらの問題に対処することなく,新しい言語に効率的に適応する方法について検討する。
論文 参考訳(メタデータ) (2023-11-09T20:59:08Z) - Robustifying Language Models with Test-Time Adaptation [17.96043752001886]
大規模言語モデルは、多くの言語タスクに対して最先端のパフォーマンスを達成した。
これらは、言語モデルを騙すように最適化された文であるが、人間に類似した意味を持つ、敵対的な言語の例では失敗する。
入力文をマスキングされた単語からの予測に適応させることで,多くの言語敵対攻撃を逆転させることができることを示す。
論文 参考訳(メタデータ) (2023-10-29T22:37:54Z) - Chat Vector: A Simple Approach to Equip LLMs with Instruction Following and Model Alignment in New Languages [40.37822682459469]
我々は、事前訓練された言語モデルに指示追従と人間の値アライメントを持たせるために、$textitchat vector$という概念を導入する。
連続的な事前訓練されたモデルの重み付けにチャットベクトルを追加するだけで、言語を必要とせずに、チャット機能をモデルに組み込むことができる。
論文 参考訳(メタデータ) (2023-10-07T13:34:21Z) - Qwen Technical Report [132.54304067403922]
当社の大規模言語モデルシリーズの最初のインストールであるQwenを紹介します。
Qwenはトレーニング済みの言語モデルの基本であり、Qwen-Chatは人間のアライメント技術で微調整されたチャットモデルである。
また、コーディング特化モデルであるCode-QwenとCode-Qwen-Chatも開発し、数学に焦点を当てたMath-Qwen-Chatも開発しました。
論文 参考訳(メタデータ) (2023-09-28T17:07:49Z) - ChatGPT Beyond English: Towards a Comprehensive Evaluation of Large
Language Models in Multilingual Learning [70.57126720079971]
大規模言語モデル(LLM)は、自然言語処理(NLP)において最も重要なブレークスルーとして登場した。
本稿では,高,中,低,低リソースの37言語を対象として,ChatGPTを7つのタスクで評価する。
従来のモデルと比較すると,様々なNLPタスクや言語に対するChatGPTの性能は低下していた。
論文 参考訳(メタデータ) (2023-04-12T05:08:52Z) - Baize: An Open-Source Chat Model with Parameter-Efficient Tuning on
Self-Chat Data [101.63682141248069]
ChatGPTのようなチャットモデルは印象的な機能を示しており、多くのドメインで急速に採用されている。
本稿では,ChatGPTを利用して,高品質なマルチターンチャットコーパスを自動生成するパイプラインを提案する。
我々は,オープンソースの大規模言語モデルであるLLaMAを強化するために,パラメータ効率のチューニングを用いる。
論文 参考訳(メタデータ) (2023-04-03T17:59:09Z) - Contrastive Alignment of Vision to Language Through Parameter-Efficient
Transfer Learning [60.26952378997713]
コントラスト的視覚言語モデル(例えばCLIP)は、コントラスト的トレーニングを通じて視覚モデルと言語モデルの全てのパラメータを更新することによって作成される。
パラメータ更新の最小セット($7%)が、フルモデルトレーニングと同じパフォーマンスを実現可能であることを示す。
既存の知識がパラメータ効率のトレーニングにおいてより強く保存されていることを示す。
論文 参考訳(メタデータ) (2023-03-21T14:12:08Z) - Efficient Language Model Training through Cross-Lingual and Progressive
Transfer Learning [0.7612676127275795]
ほとんどのトランスフォーマー言語モデルは英語のテキストで事前訓練されている。
モデルのサイズが大きくなるにつれて、英語と他の言語のパフォーマンスギャップはさらに大きくなる。
我々はCLP-Transferと呼ばれる言語横断的・進行的トランスファー学習手法を導入する。
論文 参考訳(メタデータ) (2023-01-23T18:56:12Z) - Code Switching Language Model Using Monolingual Training Data [0.0]
単言語データのみを使用したコードスイッチング(cs)言語モデルのトレーニングはまだ研究中である。
この研究では、RNN言語モデルは、単言語英語とスペイン語のデータのみから代替バッチを使用して訓練される。
結果はRNNベースの言語モデルの出力埋め込みにおいて平均二乗誤差(MSE)を用いて一貫して改善された。
論文 参考訳(メタデータ) (2020-12-23T08:56:39Z) - Pre-Training a Language Model Without Human Language [74.11825654535895]
先行学習データの本質的性質が下流性能の微調整にどのように寄与するかを検討する。
非構造化データで事前に訓練されたモデルは、下流のタスクでゼロから訓練されたモデルに勝った。
驚くべきことに、特定の非人間言語データの事前トレーニングがGLUEのパフォーマンスを他の非英語言語で事前トレーニングされたパフォーマンスに近づけることを明らかにしました。
論文 参考訳(メタデータ) (2020-12-22T13:38:06Z) - Detecting and Exorcising Statistical Demons from Language Models with
Anti-Models of Negative Data [13.392212395386933]
モデルファミリー内では、パラメータの数、訓練エポック数、データセットのサイズが増加するため、モデルが負のn-gramデータに一般化する能力がある。
本稿では,このような望ましくない信号を正のデータから自動的に学習した負のデータ分布で減衰させる帰納バイアスの形式を提案する。
論文 参考訳(メタデータ) (2020-10-22T16:45:32Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。