論文の概要: Qwen Technical Report
- arxiv url: http://arxiv.org/abs/2309.16609v1
- Date: Thu, 28 Sep 2023 17:07:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-29 13:04:09.996652
- Title: Qwen Technical Report
- Title(参考訳): Qwen 技術報告
- Authors: Jinze Bai, Shuai Bai, Yunfei Chu, Zeyu Cui, Kai Dang, Xiaodong Deng,
Yang Fan, Wenbin Ge, Yu Han, Fei Huang, Binyuan Hui, Luo Ji, Mei Li, Junyang
Lin, Runji Lin, Dayiheng Liu, Gao Liu, Chengqiang Lu, Keming Lu, Jianxin Ma,
Rui Men, Xingzhang Ren, Xuancheng Ren, Chuanqi Tan, Sinan Tan, Jianhong Tu,
Peng Wang, Shijie Wang, Wei Wang, Shengguang Wu, Benfeng Xu, Jin Xu, An Yang,
Hao Yang, Jian Yang, Shusheng Yang, Yang Yao, Bowen Yu, Hongyi Yuan, Zheng
Yuan, Jianwei Zhang, Xingxuan Zhang, Yichang Zhang, Zhenru Zhang, Chang Zhou,
Jingren Zhou, Xiaohuan Zhou, Tianhang Zhu
- Abstract要約: 当社の大規模言語モデルシリーズの最初のインストールであるQwenを紹介します。
Qwenはトレーニング済みの言語モデルの基本であり、Qwen-Chatは人間のアライメント技術で微調整されたチャットモデルである。
また、コーディング特化モデルであるCode-QwenとCode-Qwen-Chatも開発し、数学に焦点を当てたMath-Qwen-Chatも開発しました。
- 参考スコア(独自算出の注目度): 132.54304067403922
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have revolutionized the field of artificial
intelligence, enabling natural language processing tasks that were previously
thought to be exclusive to humans. In this work, we introduce Qwen, the first
installment of our large language model series. Qwen is a comprehensive
language model series that encompasses distinct models with varying parameter
counts. It includes Qwen, the base pretrained language models, and Qwen-Chat,
the chat models finetuned with human alignment techniques. The base language
models consistently demonstrate superior performance across a multitude of
downstream tasks, and the chat models, particularly those trained using
Reinforcement Learning from Human Feedback (RLHF), are highly competitive. The
chat models possess advanced tool-use and planning capabilities for creating
agent applications, showcasing impressive performance even when compared to
bigger models on complex tasks like utilizing a code interpreter. Furthermore,
we have developed coding-specialized models, Code-Qwen and Code-Qwen-Chat, as
well as mathematics-focused models, Math-Qwen-Chat, which are built upon base
language models. These models demonstrate significantly improved performance in
comparison with open-source models, and slightly fall behind the proprietary
models.
- Abstract(参考訳): 大規模言語モデル(LLM)は人工知能の分野に革命をもたらし、以前は人間専用と考えられていた自然言語処理タスクを可能にした。
本稿では,大規模な言語モデルシリーズの最初のインストールであるqwenを紹介する。
Qwenは、パラメータ数が異なる異なるモデルを含む包括的な言語モデルシリーズである。
基本的な事前学習された言語モデルであるqwenと、人間のアライメント技術で微調整されたチャットモデルであるqwen-chatが含まれている。
基本言語モデルは,多数のダウンストリームタスクにおいて一貫して優れたパフォーマンスを示し,チャットモデル,特に人的フィードバックからの強化学習(rlhf)を用いたトレーニングは,極めて競争力が高い。
チャットモデルはエージェントアプリケーションを作成するための高度なツール利用と計画機能を持ち、コードインタプリタの利用のような複雑なタスクのより大きなモデルと比較しても印象的なパフォーマンスを示している。
さらに,コーディング特化モデルであるCode-QwenとCode-Qwen-Chatと,ベース言語モデルに基づくMath-Qwen-Chatを開発した。
これらのモデルは、オープンソースモデルと比較して大幅にパフォーマンスが向上し、プロプライエタリモデルにやや遅れている。
関連論文リスト
- Yi: Open Foundation Models by 01.AI [42.94680878285869]
Yiモデルファミリは、6Bおよび34B事前訓練言語モデルに基づいており、チャットモデル、200K長コンテキストモデル、深度アップスケールモデル、ビジョン言語モデルに拡張する。
私たちのベースモデルは、MMLUのような幅広いベンチマークで強力なパフォーマンスを実現し、優れたチャットモデルは、AlpacaEvalやArenaといった主要な評価プラットフォーム上で、強い人間の嗜好率を提供します。
論文 参考訳(メタデータ) (2024-03-07T16:52:49Z) - Lemur: Harmonizing Natural Language and Code for Language Agents [105.43564788499901]
自然言語とコーディング機能の両方に最適化されたオープンソースの言語モデルであるLemurとLemur-Chatを紹介する。
我々のモデルは、様々なテキストおよびコーディングベンチマークで最先端の平均性能を達成する。
自然言語とプログラミング言語の調和により、Lemur-Chatはエージェント能力に関するプロプライエタリなモデルとのギャップを著しく狭めることができる。
論文 参考訳(メタデータ) (2023-10-10T17:57:45Z) - Enhancing Chat Language Models by Scaling High-quality Instructional
Conversations [91.98516412612739]
まず,UltraChatという,体系的に設計され,多様で,情報的,大規模な会話データセットを提供する。
我々の目標は、人間がAIアシスタントで持つであろう対話の幅を捉えることです。
我々はLLaMAモデルを微調整し、強力な対話モデルであるUltraLLaMAを作成する。
論文 参考訳(メタデータ) (2023-05-23T16:49:14Z) - Language Models are General-Purpose Interfaces [109.45478241369655]
本稿では,様々な基礎モデルに対する汎用インタフェースとして言語モデルを提案する。
事前訓練されたエンコーダのコレクションは、様々なモダリティ(ビジョンや言語など)を知覚する
インタフェースとモジュールエンコーダを協調的に事前学習するための半因果言語モデリング手法を提案する。
論文 参考訳(メタデータ) (2022-06-13T17:34:22Z) - What Language Model Architecture and Pretraining Objective Work Best for
Zero-Shot Generalization? [50.84738303888189]
本稿では,モデル選択の大規模評価とそのゼロショット一般化への影響について述べる。
私たちは、70億以上のトークンに対して、50億以上のパラメータを持つモデルをトレーニングします。
事前学習した因果デコーダモデルを非因果デコーダモデルに効率的に適用できることが判明した。
論文 参考訳(メタデータ) (2022-04-12T14:19:49Z) - Language Models are not Models of Language [0.0]
トランスファーラーニングにより、言語モデリングタスクでトレーニングされた大規模なディープラーニングニューラルネットワークにより、パフォーマンスが大幅に向上した。
深層学習モデルは言語の理論的モデルではないので、言語モデルという用語は誤解を招く。
論文 参考訳(メタデータ) (2021-12-13T22:39:46Z) - Paraphrastic Representations at Scale [134.41025103489224]
私たちは、英語、アラビア語、ドイツ語、フランス語、スペイン語、ロシア語、トルコ語、中国語の訓練されたモデルをリリースします。
我々はこれらのモデルを大量のデータでトレーニングし、元の論文から大幅に性能を向上した。
論文 参考訳(メタデータ) (2021-04-30T16:55:28Z) - WikiBERT models: deep transfer learning for many languages [1.3455090151301572]
ウィキペディアデータから言語固有のBERTモデルを作成するための、単純で完全に自動化されたパイプラインを導入します。
我々は,これらのモデルの有効性を,Universal Dependenciesデータに基づく最先端のUDifyを用いて評価する。
論文 参考訳(メタデータ) (2020-06-02T11:57:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。