論文の概要: TeleChat Technical Report
- arxiv url: http://arxiv.org/abs/2401.03804v1
- Date: Mon, 8 Jan 2024 10:43:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 16:58:59.673541
- Title: TeleChat Technical Report
- Title(参考訳): テレチャット技術報告
- Authors: Zihan Wang, Xinzhang Liu, Shixuan Liu, Yitong Yao, Yuyao Huang,
Zhongjiang He, Xuelong Li, Yongxiang Li, Zhonghao Che, Zhaoxi Zhang, Yan
Wang, Xin Wang, Luwen Pu, Huihan Xu, Ruiyu Fang, Yu Zhao, Jie Zhang, Xiaomeng
Huang, Zhilong Lu, Jiaxin Peng, Wenjun Zheng, Shiquan Wang, Bingkai Yang,
Xuewei he, Zhuoru Jiang, Qiyi Xie, Yanhan Zhang, Zhongqiu Li, Lingling Shi,
Weiwei Fu, Yin Zhang, Zilu Huang, Sishi Xiong, Yuxiang Zhang, Chao Wang,
Shuangyong Song
- Abstract要約: 我々は、30億、70億、120億のパラメータを持つ大規模言語モデル(LLM)のコレクションであるTeleChatを提示する。
事前訓練された言語モデルと、人間の好みに合わせて微調整されたチャットモデルが含まれている。
言語理解,数学,推論,コード生成,知識に基づく質問応答など,様々なタスクにおけるTeleChatの性能を評価する。
- 参考スコア(独自算出の注目度): 40.78501419932895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this technical report, we present TeleChat, a collection of large language
models (LLMs) with parameters of 3 billion, 7 billion and 12 billion. It
includes pretrained language models as well as fine-tuned chat models that is
aligned with human preferences. TeleChat is initially pretrained on an
extensive corpus containing a diverse collection of texts from both English and
Chinese languages, including trillions of tokens. Subsequently, the model
undergoes fine-tuning to align with human preferences, following a detailed
methodology that we describe. We evaluate the performance of TeleChat on
various tasks, including language understanding, mathematics, reasoning, code
generation, and knowledge-based question answering. Our findings indicate that
TeleChat achieves comparable performance to other open-source models of similar
size across a wide range of public benchmarks. To support future research and
applications utilizing LLMs, we release the fine-tuned model checkpoints of
TeleChat's 7B and 12B variant, along with code and a portion of our pretraining
data, to the public community.
- Abstract(参考訳): 本稿では,30億,70億,120億のパラメータを持つ大規模言語モデル(LLM)の集合であるTeleChatを紹介する。
事前訓練された言語モデルと、人間の好みに合わせて微調整されたチャットモデルが含まれている。
TeleChatは最初、数十兆のトークンを含む英語と中国語のテキストの多種多様なコレクションを含む広範なコーパスで事前訓練されている。
その後、このモデルは、我々が記述した詳細な方法論に従って、人間の好みに合わせて微調整を行う。
言語理解,数学,推論,コード生成,知識に基づく質問応答など,様々なタスクにおけるTeleChatの性能を評価する。
以上の結果から,TeleChatは,他のオープンソースモデルと同等の規模で,幅広い公開ベンチマークで比較可能な性能を実現していることがわかった。
llmsを活用した将来の研究やアプリケーションをサポートするため、telechatの7bと12bのモデルの微調整されたチェックポイントと、コードとトレーニングデータの一部をパブリックコミュニティにリリースします。
関連論文リスト
- Benchmarking Pre-trained Large Language Models' Potential Across Urdu NLP tasks [0.9786690381850356]
多言語データで事前訓練されたLarge Language Models (LLMs)は、自然言語処理の研究に革命をもたらした。
本研究では,15のUrduデータセットを用いて,14のタスクにまたがる顕著なLLMの詳細な検討を行った。
実験の結果、SOTAモデルはゼロショット学習を伴う全てのUrdu NLPタスクにおいて、エンコーダ-デコーダ事前訓練された言語モデルを上回ることがわかった。
論文 参考訳(メタデータ) (2024-05-24T11:30:37Z) - Evaluating Large Language Models with Human Feedback: Establishing a Swedish Benchmark [0.0]
大規模言語モデル(LLM)は、多数のアプリケーションにまたがる重要な機能を示している。
本研究では,スウェーデン語テキストの理解と生成におけるLLMの有効性を評価するための総合的人間ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-05-22T21:22:51Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - Video-ChatGPT: Towards Detailed Video Understanding via Large Vision and Language Models [59.525108086957296]
Video-ChatGPTは、ビデオ適応型ビジュアルエンコーダとLLMをマージするマルチモーダルモデルである。
ビデオに関する詳細な会話を理解し、生成することができる。
我々は,ビデオチャットGPTのトレーニングに使用される10,000対のビデオ命令ペアの新しいデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-08T17:59:56Z) - Enhancing Chat Language Models by Scaling High-quality Instructional
Conversations [91.98516412612739]
まず,UltraChatという,体系的に設計され,多様で,情報的,大規模な会話データセットを提供する。
我々の目標は、人間がAIアシスタントで持つであろう対話の幅を捉えることです。
我々はLLaMAモデルを微調整し、強力な対話モデルであるUltraLLaMAを作成する。
論文 参考訳(メタデータ) (2023-05-23T16:49:14Z) - BLOOM: A 176B-Parameter Open-Access Multilingual Language Model [264.96498474333697]
大規模言語モデル(LLM)は、いくつかのデモや自然言語命令に基づいて新しいタスクを実行できることが示されている。
BLOOMは、176Bパラメータのオープンアクセス言語モデルであり、数百人の研究者の協力により設計・構築されている。
BLOOMは、RATSコーパスでトレーニングされたデコーダのみのトランスフォーマー言語モデルである。
論文 参考訳(メタデータ) (2022-11-09T18:48:09Z) - IndicSUPERB: A Speech Processing Universal Performance Benchmark for
Indian languages [16.121708272597154]
インド12言語における音声認識のためのIndicSUPERBベンチマークをリリースする。
一般的に使用されているベースラインベンチマークとともに、さまざまな自己教師付きモデルをトレーニングし、評価する。
言語固有の微調整モデルはほとんどのタスクのベースラインよりも正確であることを示す。
論文 参考訳(メタデータ) (2022-08-24T20:14:52Z) - A Large-Scale Chinese Short-Text Conversation Dataset [77.55813366932313]
大規模な中国語会話データセットLCCCについて,基本バージョン(680万対話),大バージョン(1120万対話)について述べる。
データセットの品質は、厳格なデータクリーニングパイプラインによって保証されます。
また,LCCC-baseとLCCC-largeで訓練された事前学習対話モデルもリリースした。
論文 参考訳(メタデータ) (2020-08-10T08:12:49Z) - Pre-training Polish Transformer-based Language Models at Scale [1.0312968200748118]
本稿では,人気のあるBERTアーキテクチャに基づくポーランド語のための2つの言語モデルを提案する。
本稿では,データを収集し,コーパスを作成し,モデルを事前学習するための方法論について述べる。
次に、ポーランド語の13の課題について、我々のモデルを評価し、そのうち11つの改善点を実証する。
論文 参考訳(メタデータ) (2020-06-07T18:48:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。