論文の概要: Chat Vector: A Simple Approach to Equip LLMs with Instruction Following
and Model Alignment in New Languages
- arxiv url: http://arxiv.org/abs/2310.04799v2
- Date: Wed, 6 Mar 2024 15:50:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 17:54:04.807075
- Title: Chat Vector: A Simple Approach to Equip LLMs with Instruction Following
and Model Alignment in New Languages
- Title(参考訳): chat vector: 新しい言語における命令追従とモデルアライメントをllmに装備するシンプルなアプローチ
- Authors: Shih-Cheng Huang, Pin-Zu Li, Yu-Chi Hsu, Kuang-Ming Chen, Yu Tung Lin,
Shih-Kai Hsiao, Richard Tzong-Han Tsai, Hung-yi Lee
- Abstract要約: 本稿では,事前訓練された言語モデルに,指示追従と人的価値アライメントを備えたチャットベクトルの概念を導入する。
継続した事前学習モデルの重み付けにチャットベクトルを追加するだけで、さらなるトレーニングを必要とせずに、新しい言語でチャット機能を備えたモデルを実現することができる。
- 参考スコア(独自算出の注目度): 42.11732537807556
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, the development of open-source large language models (LLMs) has
advanced rapidly. Nevertheless, due to data constraints, the capabilities of
most open-source LLMs are primarily focused on English. To address this issue,
we introduce the concept of chat vector to equip pre-trained language models
with instruction following and human value alignment via simple model
arithmetic. The chat vector is derived by subtracting the weights of a
pre-trained base model (e.g. LLaMA2) from those of its corresponding chat model
(e.g. LLaMA2-chat). By simply adding the chat vector to a continual pre-trained
model's weights, we can endow the model with chat capabilities in new languages
without the need for further training. Our empirical studies demonstrate the
superior efficacy of the chat vector from three different aspects: instruction
following, toxicity mitigation, and multi-turn dialogue. Moreover, to showcase
the adaptability of our approach, we extend our experiments to encompass
various languages, base models, and chat vectors. The results underscore the
chat vector's simplicity, effectiveness, and wide applicability, making it a
compelling solution for efficiently enabling conversational capabilities in
pre-trained language models.
- Abstract(参考訳): 近年,オープンソースの大規模言語モデル (LLM) の開発が急速に進んでいる。
それでも、データ制約のため、ほとんどのオープンソースLLMの機能は、主に英語に焦点を当てている。
この問題に対処するために、簡単なモデル算術による命令追従と人的価値アライメントを備えた事前学習言語モデルを提供するチャットベクトルの概念を導入する。
チャットベクトルは、事前訓練されたベースモデル(例えばLLaMA2)の重みを、対応するチャットモデル(例えばLLaMA2-chat)の重みから引いたものである。
連続的な事前学習モデルの重み付けにチャットベクトルを追加するだけで、さらなるトレーニングを必要とせずに、新しい言語でチャット機能を備えたモデルを実現することができる。
実験結果から,チャットベクターは,指示追従,毒性軽減,多ターン対話の3つの側面から優れた効果を示す。
さらに,提案手法の適応性を示すために,様々な言語,ベースモデル,チャットベクタを包含する実験を拡張した。
その結果、チャットベクターの単純さ、有効性、幅広い適用性を強調し、事前訓練された言語モデルで会話機能を有効にするための魅力的なソリューションとなった。
関連論文リスト
- LLM should think and action as a human [0.0]
マルチターン会話では、ユーザプロンプト毎に、チャット履歴、思考コンテキスト、アクションコール、メモリ、知識といった要素に基づいて、大きな言語モデルを考える。
実験結果から,大規模言語モデルの推論能力と計画能力が向上し,マルチターン会話における課題が解決された。
論文 参考訳(メタデータ) (2025-02-19T06:58:34Z) - Vocabulary Expansion of Chat Models with Unlabeled Target Language Data [38.341705137026985]
チャットモデル(つまり、人間との会話を通じて指示に従うために訓練された言語モデル)は、会話と一般的なタスク解決能力の両方において、ベースモデル(すなわち、ラベルなしデータにのみ訓練された)より優れている。
これらのモデルは一般的に英語中心であり、トレーニングデータから不足している言語や欠落している言語にさらに適応する必要がある。
そこで本研究では,本手法の有効性を明らかにする実験を行い,87%のケースにおいて,適合モデルが性能改善を達成するのに有効であることを示す。
論文 参考訳(メタデータ) (2024-12-16T12:26:28Z) - Towards a More Inclusive AI: Progress and Perspectives in Large Language Model Training for the Sámi Language [7.289015788793582]
本研究は、S'ami言語における技術参加の増大に焦点を当てている。
我々は,Ultra Low Resource (ULR)言語の言語モデリング問題に対して,MLコミュニティの注目を集めている。
Webから利用可能なS'ami言語リソースをコンパイルして、言語モデルをトレーニングするためのクリーンなデータセットを作成しました。
論文 参考訳(メタデータ) (2024-05-09T13:54:22Z) - Lemur: Harmonizing Natural Language and Code for Language Agents [105.43564788499901]
自然言語とコーディング機能の両方に最適化されたオープンソースの言語モデルであるLemurとLemur-Chatを紹介する。
我々のモデルは、様々なテキストおよびコーディングベンチマークで最先端の平均性能を達成する。
自然言語とプログラミング言語の調和により、Lemur-Chatはエージェント能力に関するプロプライエタリなモデルとのギャップを著しく狭めることができる。
論文 参考訳(メタデータ) (2023-10-10T17:57:45Z) - Qwen Technical Report [132.54304067403922]
当社の大規模言語モデルシリーズの最初のインストールであるQwenを紹介します。
Qwenはトレーニング済みの言語モデルの基本であり、Qwen-Chatは人間のアライメント技術で微調整されたチャットモデルである。
また、コーディング特化モデルであるCode-QwenとCode-Qwen-Chatも開発し、数学に焦点を当てたMath-Qwen-Chatも開発しました。
論文 参考訳(メタデータ) (2023-09-28T17:07:49Z) - Improving Language Plasticity via Pretraining with Active Forgetting [63.36484652568976]
本稿では,新しい言語に迅速に適応可能な PLM を作成する簡単な方法として,事前学習中に能動的に忘れる機構を提案する。
RoBERTaを用いた実験では、忘れるメカニズムで事前訓練されたモデルは、言語適応中により高速な収束を示す。
論文 参考訳(メタデータ) (2023-07-03T17:12:44Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Scheduled Multi-task Learning for Neural Chat Translation [66.81525961469494]
ニューラルチャット翻訳(NCT)のためのマルチタスク学習フレームワークを提案する。
具体的には、大規模なドメイン内チャット翻訳データをトレーニングに組み込むための3段階のトレーニングフレームワークを考案する。
提案手法の有効性と優越性を検証するために, 4言語方向の広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-05-08T02:57:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。