論文の概要: Chat Vector: A Simple Approach to Equip LLMs with Instruction Following
and Model Alignment in New Languages
- arxiv url: http://arxiv.org/abs/2310.04799v2
- Date: Wed, 6 Mar 2024 15:50:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 17:54:04.807075
- Title: Chat Vector: A Simple Approach to Equip LLMs with Instruction Following
and Model Alignment in New Languages
- Title(参考訳): chat vector: 新しい言語における命令追従とモデルアライメントをllmに装備するシンプルなアプローチ
- Authors: Shih-Cheng Huang, Pin-Zu Li, Yu-Chi Hsu, Kuang-Ming Chen, Yu Tung Lin,
Shih-Kai Hsiao, Richard Tzong-Han Tsai, Hung-yi Lee
- Abstract要約: 本稿では,事前訓練された言語モデルに,指示追従と人的価値アライメントを備えたチャットベクトルの概念を導入する。
継続した事前学習モデルの重み付けにチャットベクトルを追加するだけで、さらなるトレーニングを必要とせずに、新しい言語でチャット機能を備えたモデルを実現することができる。
- 参考スコア(独自算出の注目度): 42.11732537807556
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, the development of open-source large language models (LLMs) has
advanced rapidly. Nevertheless, due to data constraints, the capabilities of
most open-source LLMs are primarily focused on English. To address this issue,
we introduce the concept of chat vector to equip pre-trained language models
with instruction following and human value alignment via simple model
arithmetic. The chat vector is derived by subtracting the weights of a
pre-trained base model (e.g. LLaMA2) from those of its corresponding chat model
(e.g. LLaMA2-chat). By simply adding the chat vector to a continual pre-trained
model's weights, we can endow the model with chat capabilities in new languages
without the need for further training. Our empirical studies demonstrate the
superior efficacy of the chat vector from three different aspects: instruction
following, toxicity mitigation, and multi-turn dialogue. Moreover, to showcase
the adaptability of our approach, we extend our experiments to encompass
various languages, base models, and chat vectors. The results underscore the
chat vector's simplicity, effectiveness, and wide applicability, making it a
compelling solution for efficiently enabling conversational capabilities in
pre-trained language models.
- Abstract(参考訳): 近年,オープンソースの大規模言語モデル (LLM) の開発が急速に進んでいる。
それでも、データ制約のため、ほとんどのオープンソースLLMの機能は、主に英語に焦点を当てている。
この問題に対処するために、簡単なモデル算術による命令追従と人的価値アライメントを備えた事前学習言語モデルを提供するチャットベクトルの概念を導入する。
チャットベクトルは、事前訓練されたベースモデル(例えばLLaMA2)の重みを、対応するチャットモデル(例えばLLaMA2-chat)の重みから引いたものである。
連続的な事前学習モデルの重み付けにチャットベクトルを追加するだけで、さらなるトレーニングを必要とせずに、新しい言語でチャット機能を備えたモデルを実現することができる。
実験結果から,チャットベクターは,指示追従,毒性軽減,多ターン対話の3つの側面から優れた効果を示す。
さらに,提案手法の適応性を示すために,様々な言語,ベースモデル,チャットベクタを包含する実験を拡張した。
その結果、チャットベクターの単純さ、有効性、幅広い適用性を強調し、事前訓練された言語モデルで会話機能を有効にするための魅力的なソリューションとなった。
関連論文リスト
- Towards a More Inclusive AI: Progress and Perspectives in Large Language Model Training for the Sámi Language [7.289015788793582]
本研究は、S'ami言語における技術参加の増大に焦点を当てている。
我々は,Ultra Low Resource (ULR)言語の言語モデリング問題に対して,MLコミュニティの注目を集めている。
Webから利用可能なS'ami言語リソースをコンパイルして、言語モデルをトレーニングするためのクリーンなデータセットを作成しました。
論文 参考訳(メタデータ) (2024-05-09T13:54:22Z) - Lemur: Harmonizing Natural Language and Code for Language Agents [105.43564788499901]
自然言語とコーディング機能の両方に最適化されたオープンソースの言語モデルであるLemurとLemur-Chatを紹介する。
我々のモデルは、様々なテキストおよびコーディングベンチマークで最先端の平均性能を達成する。
自然言語とプログラミング言語の調和により、Lemur-Chatはエージェント能力に関するプロプライエタリなモデルとのギャップを著しく狭めることができる。
論文 参考訳(メタデータ) (2023-10-10T17:57:45Z) - Qwen Technical Report [132.54304067403922]
当社の大規模言語モデルシリーズの最初のインストールであるQwenを紹介します。
Qwenはトレーニング済みの言語モデルの基本であり、Qwen-Chatは人間のアライメント技術で微調整されたチャットモデルである。
また、コーディング特化モデルであるCode-QwenとCode-Qwen-Chatも開発し、数学に焦点を当てたMath-Qwen-Chatも開発しました。
論文 参考訳(メタデータ) (2023-09-28T17:07:49Z) - Improving Language Plasticity via Pretraining with Active Forgetting [63.36484652568976]
本稿では,新しい言語に迅速に適応可能な PLM を作成する簡単な方法として,事前学習中に能動的に忘れる機構を提案する。
RoBERTaを用いた実験では、忘れるメカニズムで事前訓練されたモデルは、言語適応中により高速な収束を示す。
論文 参考訳(メタデータ) (2023-07-03T17:12:44Z) - Efficient Language Model Training through Cross-Lingual and Progressive
Transfer Learning [0.7612676127275795]
ほとんどのトランスフォーマー言語モデルは英語のテキストで事前訓練されている。
モデルのサイズが大きくなるにつれて、英語と他の言語のパフォーマンスギャップはさらに大きくなる。
我々はCLP-Transferと呼ばれる言語横断的・進行的トランスファー学習手法を導入する。
論文 参考訳(メタデータ) (2023-01-23T18:56:12Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - What do Large Language Models Learn beyond Language? [10.9650651784511]
事前学習モデルは、非事前学習ニューラルモデルに匹敵する性能を著しく上回っていることがわかった。
実験により、多言語テキストやコンピュータコードで事前学習しても、事前学習の効果が持続することが明らかとなった。
その結果,言語モデルの事前学習能力と帰納学習能力との間には,未解明の深い関係があることが示唆された。
論文 参考訳(メタデータ) (2022-10-21T23:43:13Z) - Scheduled Multi-task Learning for Neural Chat Translation [66.81525961469494]
ニューラルチャット翻訳(NCT)のためのマルチタスク学習フレームワークを提案する。
具体的には、大規模なドメイン内チャット翻訳データをトレーニングに組み込むための3段階のトレーニングフレームワークを考案する。
提案手法の有効性と優越性を検証するために, 4言語方向の広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-05-08T02:57:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。