論文の概要: ElChat: Adapting Chat Language Models Using Only Target Unlabeled Language Data
- arxiv url: http://arxiv.org/abs/2412.11704v3
- Date: Fri, 25 Apr 2025 16:08:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-28 18:47:07.385975
- Title: ElChat: Adapting Chat Language Models Using Only Target Unlabeled Language Data
- Title(参考訳): ElChat: ターゲットが未ラベルの言語データのみを使用して、チャット言語モデルに適応する
- Authors: Atsuki Yamaguchi, Terufumi Morishita, Aline Villavicencio, Nikolaos Aletras,
- Abstract要約: チャットLLMのための新しい言語適応手法であるElChatを提案する。
ベースモデルなしで、ターゲットの未ラベルデータに直接チャットモデルを適用する。
ソースチャットモデルから情報をインジェクトすることで、チャット能力を付与する。
- 参考スコア(独自算出の注目度): 38.341705137026985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vocabulary expansion (VE) is the de-facto approach to language adaptation of large language models (LLMs) by adding new tokens and continuing pre-training on target data. While this is effective for base models trained on unlabeled data, it poses challenges for chat models trained to follow instructions through labeled conversation data. Directly adapting the latter with VE on target unlabeled data may result in forgetting chat abilities. While ideal, target chat data is often unavailable or costly to create for low-resource languages, and machine-translated alternatives are not always effective. To address this issue, previous work proposed using a base and chat model from the same family. This method first adapts the base LLM with VE on target unlabeled data and then converts it to a chat model by adding a chat vector (CV) derived from the weight difference between the source base and chat models. We propose ElChat, a new language adaptation method for chat LLMs that adapts a chat model directly on target unlabeled data, without a base model. It elicits chat abilities by injecting information from the source chat model. ElChat offers more robust and competitive target language and safety performance while achieving superior English, chat, and instruction-following abilities compared to CV.
- Abstract(参考訳): 語彙拡張(Vocabulary expansion, VE)は、大規模言語モデル(LLM)の言語適応のためのデファクトアプローチである。
これはラベルのないデータに基づいてトレーニングされたベースモデルには有効だが、ラベル付き会話データを通じて指示に従うように訓練されたチャットモデルには課題がある。
VEを対象の未ラベルデータに直接適応させると、チャット能力を忘れてしまう可能性がある。
理想的ではあるが、ターゲットのチャットデータは低リソース言語のための作成には利用できない、あるいはコストがかかる場合が多い。
この問題に対処するため、以前の作業では、同じ家族のベースとチャットモデルを使用していた。
この方法は、まず、ターゲット未ラベルデータにVEでベースLSMを適応させ、次に、ソースベースとチャットモデルとの重み差から派生したチャットベクトル(CV)を追加してチャットモデルに変換する。
ベースモデルなしで、ターゲット未ラベルデータに直接チャットモデルを適用するチャットLLMのための新しい言語適応手法であるElChatを提案する。
ソースチャットモデルから情報をインジェクトすることで、チャット能力を付与する。
ElChatは、より堅牢で競争力のあるターゲット言語と安全性能を提供すると同時に、CVと比較して優れた英語、チャット、指示追従能力を実現している。
関連論文リスト
- Hidden in Plain Sight: Exploring Chat History Tampering in Interactive Language Models [12.920884182101142]
大規模言語モデル(LLM)は、実世界のアプリケーションで普及し、素晴らしいテキスト生成性能を示している。
LLMベースのチャットシステムは、対話的に振る舞うためには、事前に定義された構造に従って、事前のチャット履歴を入力のコンテキストとして統合する必要がある。
本稿では,目標モデルの事前知識を必要とせずに,LLM会話にユーザ提供履歴を注入するための体系的手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T16:36:47Z) - Why Not Transform Chat Large Language Models to Non-English? [57.16587777261422]
非英語データの不足は、非英語大言語モデル(LLM)の開発を制限する
TransLLMは、転送問題を変換チェーン・オブ・シント(translation chain of-of- Thought)でいくつかの一般的なサブタスクに分割する。
本手法は,シングルターンデータのみを用いて,マルチターンベンチマークMT-benchにおいて,強いベースラインとChatGPTより優れる。
論文 参考訳(メタデータ) (2024-05-22T18:53:25Z) - ChatEL: Entity Linking with Chatbots [11.944348800783834]
ChatELは、大規模言語モデルに正確な結果を返すための3段階のフレームワークである。
全体として、ChatELフレームワークは10データセットの平均F1パフォーマンスを2%以上改善している。
論文 参考訳(メタデータ) (2024-02-20T20:52:57Z) - Efficiently Adapting Pretrained Language Models To New Languages [9.33333013114014]
近年の大規模言語モデル (LLM) は低リソース言語に準最適性能を示す。
我々は,既存の学習済みLLMをこれらの問題に対処することなく,新しい言語に効率的に適応する方法について検討する。
論文 参考訳(メタデータ) (2023-11-09T20:59:08Z) - Robustifying Language Models with Test-Time Adaptation [17.96043752001886]
大規模言語モデルは、多くの言語タスクに対して最先端のパフォーマンスを達成した。
これらは、言語モデルを騙すように最適化された文であるが、人間に類似した意味を持つ、敵対的な言語の例では失敗する。
入力文をマスキングされた単語からの予測に適応させることで,多くの言語敵対攻撃を逆転させることができることを示す。
論文 参考訳(メタデータ) (2023-10-29T22:37:54Z) - Chat Vector: A Simple Approach to Equip LLMs with Instruction Following and Model Alignment in New Languages [40.37822682459469]
我々は、事前訓練された言語モデルに指示追従と人間の値アライメントを持たせるために、$textitchat vector$という概念を導入する。
連続的な事前訓練されたモデルの重み付けにチャットベクトルを追加するだけで、言語を必要とせずに、チャット機能をモデルに組み込むことができる。
論文 参考訳(メタデータ) (2023-10-07T13:34:21Z) - Qwen Technical Report [132.54304067403922]
当社の大規模言語モデルシリーズの最初のインストールであるQwenを紹介します。
Qwenはトレーニング済みの言語モデルの基本であり、Qwen-Chatは人間のアライメント技術で微調整されたチャットモデルである。
また、コーディング特化モデルであるCode-QwenとCode-Qwen-Chatも開発し、数学に焦点を当てたMath-Qwen-Chatも開発しました。
論文 参考訳(メタデータ) (2023-09-28T17:07:49Z) - ChatGPT Beyond English: Towards a Comprehensive Evaluation of Large
Language Models in Multilingual Learning [70.57126720079971]
大規模言語モデル(LLM)は、自然言語処理(NLP)において最も重要なブレークスルーとして登場した。
本稿では,高,中,低,低リソースの37言語を対象として,ChatGPTを7つのタスクで評価する。
従来のモデルと比較すると,様々なNLPタスクや言語に対するChatGPTの性能は低下していた。
論文 参考訳(メタデータ) (2023-04-12T05:08:52Z) - Baize: An Open-Source Chat Model with Parameter-Efficient Tuning on
Self-Chat Data [101.63682141248069]
ChatGPTのようなチャットモデルは印象的な機能を示しており、多くのドメインで急速に採用されている。
本稿では,ChatGPTを利用して,高品質なマルチターンチャットコーパスを自動生成するパイプラインを提案する。
我々は,オープンソースの大規模言語モデルであるLLaMAを強化するために,パラメータ効率のチューニングを用いる。
論文 参考訳(メタデータ) (2023-04-03T17:59:09Z) - Contrastive Alignment of Vision to Language Through Parameter-Efficient
Transfer Learning [60.26952378997713]
コントラスト的視覚言語モデル(例えばCLIP)は、コントラスト的トレーニングを通じて視覚モデルと言語モデルの全てのパラメータを更新することによって作成される。
パラメータ更新の最小セット($7%)が、フルモデルトレーニングと同じパフォーマンスを実現可能であることを示す。
既存の知識がパラメータ効率のトレーニングにおいてより強く保存されていることを示す。
論文 参考訳(メタデータ) (2023-03-21T14:12:08Z) - Efficient Language Model Training through Cross-Lingual and Progressive
Transfer Learning [0.7612676127275795]
ほとんどのトランスフォーマー言語モデルは英語のテキストで事前訓練されている。
モデルのサイズが大きくなるにつれて、英語と他の言語のパフォーマンスギャップはさらに大きくなる。
我々はCLP-Transferと呼ばれる言語横断的・進行的トランスファー学習手法を導入する。
論文 参考訳(メタデータ) (2023-01-23T18:56:12Z) - Code Switching Language Model Using Monolingual Training Data [0.0]
単言語データのみを使用したコードスイッチング(cs)言語モデルのトレーニングはまだ研究中である。
この研究では、RNN言語モデルは、単言語英語とスペイン語のデータのみから代替バッチを使用して訓練される。
結果はRNNベースの言語モデルの出力埋め込みにおいて平均二乗誤差(MSE)を用いて一貫して改善された。
論文 参考訳(メタデータ) (2020-12-23T08:56:39Z) - Pre-Training a Language Model Without Human Language [74.11825654535895]
先行学習データの本質的性質が下流性能の微調整にどのように寄与するかを検討する。
非構造化データで事前に訓練されたモデルは、下流のタスクでゼロから訓練されたモデルに勝った。
驚くべきことに、特定の非人間言語データの事前トレーニングがGLUEのパフォーマンスを他の非英語言語で事前トレーニングされたパフォーマンスに近づけることを明らかにしました。
論文 参考訳(メタデータ) (2020-12-22T13:38:06Z) - Detecting and Exorcising Statistical Demons from Language Models with
Anti-Models of Negative Data [13.392212395386933]
モデルファミリー内では、パラメータの数、訓練エポック数、データセットのサイズが増加するため、モデルが負のn-gramデータに一般化する能力がある。
本稿では,このような望ましくない信号を正のデータから自動的に学習した負のデータ分布で減衰させる帰納バイアスの形式を提案する。
論文 参考訳(メタデータ) (2020-10-22T16:45:32Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。