論文の概要: Chat Vector: A Simple Approach to Equip LLMs With New Language Chat
Capabilities
- arxiv url: http://arxiv.org/abs/2310.04799v1
- Date: Sat, 7 Oct 2023 13:34:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 15:38:06.785336
- Title: Chat Vector: A Simple Approach to Equip LLMs With New Language Chat
Capabilities
- Title(参考訳): chat vector: llmに新しい言語チャット機能を備えるためのシンプルなアプローチ
- Authors: Shih-Cheng Huang, Pin-Zu Li, Yu-Chi Hsu, Kuang-Ming Chen, Yu Tung Lin,
Shih-Kai Hsiao, Richard Tzong-Han Tsai, Hung-yi Lee
- Abstract要約: 大規模言語モデル(LLM)における既存の知識と行動の相乗化のための,チャットベクトルを利用した計算効率の良い手法を提案する。
LLaMA2の重みをLLaMA2-chatの重みから抽出することにより,LLaMA2をベースモデルとし,チャットベクトルを取得する。
提案手法の適応性を確認するため,韓国語と簡体字の両方で事前学習されたモデルを含む実験を拡張した。
- 参考スコア(独自算出の注目度): 42.11732537807556
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the advancements in conversational AI, such as ChatGPT, this paper
focuses on exploring developing Large Language Models (LLMs) for non-English
languages, especially emphasizing alignment with human preferences. We
introduce a computationally efficient method, leveraging chat vector, to
synergize pre-existing knowledge and behaviors in LLMs, restructuring the
conventional training paradigm from continual pre-train -> SFT -> RLHF to
continual pre-train + chat vector. Our empirical studies, primarily focused on
Traditional Chinese, employ LLaMA2 as the base model and acquire the chat
vector by subtracting the pre-trained weights, LLaMA2, from the weights of
LLaMA2-chat. Evaluating from three distinct facets, which are toxicity, ability
of instruction following, and multi-turn dialogue demonstrates the chat
vector's superior efficacy in chatting. To confirm the adaptability of our
approach, we extend our experiments to include models pre-trained in both
Korean and Simplified Chinese, illustrating the versatility of our methodology.
Overall, we present a significant solution in aligning LLMs with human
preferences efficiently across various languages, accomplished by the chat
vector.
- Abstract(参考訳): ChatGPTのような会話型AIの進歩により、非英語言語のための大規模言語モデル(LLM)の開発、特に人間の嗜好との整合性を強調することに焦点を当てた。
本研究では,従来の学習パラダイムを,継続事前訓練から継続事前訓練+チャットベクトルへ再構成し,従来の学習パラダイムを再構築する,チャットベクトルを利用した計算効率の高い手法を提案する。
従来の中国語に主に焦点をあてた実験研究では、llama2を基本モデルとし、llama2-chatの重みから事前訓練された重み(llama2)を減算することでチャットベクトルを取得する。
有毒性, 指導能力, マルチターン対話の3つの相違点から評価することにより, チャットベクトルのチャットにおける有効性を示す。
提案手法の適応性を確認するために,韓国語と簡体中国語の両方で事前学習したモデルを含む実験を拡張し,方法論の汎用性を示す。
全体として、チャットベクトルによって達成された様々な言語において、LLMと人間の嗜好を効率的に整合させるための重要な解を提案する。
関連論文リスト
- Towards a More Inclusive AI: Progress and Perspectives in Large Language Model Training for the Sámi Language [7.289015788793582]
本研究は、S'ami言語における技術参加の増大に焦点を当てている。
我々は,Ultra Low Resource (ULR)言語の言語モデリング問題に対して,MLコミュニティの注目を集めている。
Webから利用可能なS'ami言語リソースをコンパイルして、言語モデルをトレーニングするためのクリーンなデータセットを作成しました。
論文 参考訳(メタデータ) (2024-05-09T13:54:22Z) - Lemur: Harmonizing Natural Language and Code for Language Agents [105.43564788499901]
自然言語とコーディング機能の両方に最適化されたオープンソースの言語モデルであるLemurとLemur-Chatを紹介する。
我々のモデルは、様々なテキストおよびコーディングベンチマークで最先端の平均性能を達成する。
自然言語とプログラミング言語の調和により、Lemur-Chatはエージェント能力に関するプロプライエタリなモデルとのギャップを著しく狭めることができる。
論文 参考訳(メタデータ) (2023-10-10T17:57:45Z) - Qwen Technical Report [132.54304067403922]
当社の大規模言語モデルシリーズの最初のインストールであるQwenを紹介します。
Qwenはトレーニング済みの言語モデルの基本であり、Qwen-Chatは人間のアライメント技術で微調整されたチャットモデルである。
また、コーディング特化モデルであるCode-QwenとCode-Qwen-Chatも開発し、数学に焦点を当てたMath-Qwen-Chatも開発しました。
論文 参考訳(メタデータ) (2023-09-28T17:07:49Z) - Improving Language Plasticity via Pretraining with Active Forgetting [63.36484652568976]
本稿では,新しい言語に迅速に適応可能な PLM を作成する簡単な方法として,事前学習中に能動的に忘れる機構を提案する。
RoBERTaを用いた実験では、忘れるメカニズムで事前訓練されたモデルは、言語適応中により高速な収束を示す。
論文 参考訳(メタデータ) (2023-07-03T17:12:44Z) - Efficient Language Model Training through Cross-Lingual and Progressive
Transfer Learning [0.7612676127275795]
ほとんどのトランスフォーマー言語モデルは英語のテキストで事前訓練されている。
モデルのサイズが大きくなるにつれて、英語と他の言語のパフォーマンスギャップはさらに大きくなる。
我々はCLP-Transferと呼ばれる言語横断的・進行的トランスファー学習手法を導入する。
論文 参考訳(メタデータ) (2023-01-23T18:56:12Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - What do Large Language Models Learn beyond Language? [10.9650651784511]
事前学習モデルは、非事前学習ニューラルモデルに匹敵する性能を著しく上回っていることがわかった。
実験により、多言語テキストやコンピュータコードで事前学習しても、事前学習の効果が持続することが明らかとなった。
その結果,言語モデルの事前学習能力と帰納学習能力との間には,未解明の深い関係があることが示唆された。
論文 参考訳(メタデータ) (2022-10-21T23:43:13Z) - Scheduled Multi-task Learning for Neural Chat Translation [66.81525961469494]
ニューラルチャット翻訳(NCT)のためのマルチタスク学習フレームワークを提案する。
具体的には、大規模なドメイン内チャット翻訳データをトレーニングに組み込むための3段階のトレーニングフレームワークを考案する。
提案手法の有効性と優越性を検証するために, 4言語方向の広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-05-08T02:57:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。