論文の概要: Yi: Open Foundation Models by 01.AI
- arxiv url: http://arxiv.org/abs/2403.04652v2
- Date: Mon, 30 Dec 2024 05:46:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:03:23.081884
- Title: Yi: Open Foundation Models by 01.AI
- Title(参考訳): Yi: 01.AIによるオープンファンデーションモデル
- Authors: 01. AI, :, Alex Young, Bei Chen, Chao Li, Chengen Huang, Ge Zhang, Guanwei Zhang, Heng Li, Jiangcheng Zhu, Jianqun Chen, Jing Chang, Kaidong Yu, Peng Liu, Qiang Liu, Shawn Yue, Senbin Yang, Shiming Yang, Tao Yu, Wen Xie, Wenhao Huang, Xiaohui Hu, Xiaoyi Ren, Xinyao Niu, Pengcheng Nie, Yuchi Xu, Yudong Liu, Yue Wang, Yuxuan Cai, Zhenyu Gu, Zhiyuan Liu, Zonghong Dai,
- Abstract要約: Yiモデルファミリは、6Bおよび34B事前訓練言語モデルに基づいており、チャットモデル、200K長コンテキストモデル、深度アップスケールモデル、ビジョン言語モデルに拡張する。
私たちのベースモデルは、MMLUのような幅広いベンチマークで強力なパフォーマンスを実現し、優れたチャットモデルは、AlpacaEvalやArenaといった主要な評価プラットフォーム上で、強い人間の嗜好率を提供します。
- 参考スコア(独自算出の注目度): 41.85265938302089
- License:
- Abstract: We introduce the Yi model family, a series of language and multimodal models that demonstrate strong multi-dimensional capabilities. The Yi model family is based on 6B and 34B pretrained language models, then we extend them to chat models, 200K long context models, depth-upscaled models, and vision-language models. Our base models achieve strong performance on a wide range of benchmarks like MMLU, and our finetuned chat models deliver strong human preference rate on major evaluation platforms like AlpacaEval and Chatbot Arena. Building upon our scalable super-computing infrastructure and the classical transformer architecture, we attribute the performance of Yi models primarily to its data quality resulting from our data-engineering efforts. For pretraining, we construct 3.1 trillion tokens of English and Chinese corpora using a cascaded data deduplication and quality filtering pipeline. For finetuning, we polish a small scale (less than 10K) instruction dataset over multiple iterations such that every single instance has been verified directly by our machine learning engineers. For vision-language, we combine the chat language model with a vision transformer encoder and train the model to align visual representations to the semantic space of the language model. We further extend the context length to 200K through lightweight continual pretraining and demonstrate strong needle-in-a-haystack retrieval performance. We show that extending the depth of the pretrained checkpoint through continual pretraining further improves performance. We believe that given our current results, continuing to scale up model parameters using thoroughly optimized data will lead to even stronger frontier models.
- Abstract(参考訳): 我々は,強力な多次元機能を示す一連の言語モデルとマルチモーダルモデルであるYiモデルファミリを紹介する。
Yi モデルは 6B と 34B の事前訓練言語モデルに基づいており、チャットモデル、200K 長コンテキストモデル、深度アップスケールモデル、ビジョン言語モデルに拡張する。
私たちのベースモデルは、MMLUのような幅広いベンチマークで強力なパフォーマンスを実現し、微調整されたチャットモデルは、AlpacaEvalやChatbot Arenaといった主要な評価プラットフォーム上で、強い人間の嗜好率を提供します。
スケーラブルなスーパーコンピューティングインフラストラクチャと古典的なトランスフォーマーアーキテクチャを基盤として、Yiモデルの性能は、主にデータエンジニアリングの取り組みによるデータ品質に起因しています。
事前学習のために、カスケードデータ重複と品質フィルタリングパイプラインを用いて、英語と中国語のコーパスの3.1兆トークンを構築した。
微調整のために、複数のイテレーションで小さな(10K未満)命令データセットを磨き、すべてのインスタンスが機械学習エンジニアによって直接検証されるようにします。
視覚言語では、チャット言語モデルとビジョントランスフォーマーエンコーダを組み合わせて、視覚表現を言語モデルのセマンティック空間に合わせるようにモデルを訓練する。
さらに、コンテクスト長を200Kまで拡張し、より軽量な継続事前訓練を行い、強力なニードル・イン・ア・ヘイスタック検索性能を示す。
継続事前学習により事前学習したチェックポイントの深さを延ばすことにより,さらなる性能向上が期待できる。
現在の結果を踏まえると、徹底的に最適化されたデータを使用してモデルのパラメータを拡大し続ければ、より強力なフロンティアモデルにつながると信じています。
関連論文リスト
- Knowledge Fusion By Evolving Weights of Language Models [5.354527640064584]
本稿では,複数のモデルを統一モデルに統合するアプローチについて検討する。
本稿では進化的アルゴリズムに触発されたEvolverという知識融合手法を提案する。
論文 参考訳(メタデータ) (2024-06-18T02:12:34Z) - NLLB-CLIP -- train performant multilingual image retrieval model on a
budget [65.268245109828]
NLLBモデルからテキストエンコーダを用いたNLLB-CLIP-CLIPモデルを提案する。
201言語でキャプションを持つ106,246の良質な画像のデータセットを自動生成しました。
我々は,NLLB-CLIPが最先端モデルに匹敵する品質であり,低リソース言語ではかなり優れていることを示す。
論文 参考訳(メタデータ) (2023-09-04T23:26:11Z) - Contrastive Alignment of Vision to Language Through Parameter-Efficient
Transfer Learning [60.26952378997713]
コントラスト的視覚言語モデル(例えばCLIP)は、コントラスト的トレーニングを通じて視覚モデルと言語モデルの全てのパラメータを更新することによって作成される。
パラメータ更新の最小セット($7%)が、フルモデルトレーニングと同じパフォーマンスを実現可能であることを示す。
既存の知識がパラメータ効率のトレーニングにおいてより強く保存されていることを示す。
論文 参考訳(メタデータ) (2023-03-21T14:12:08Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - What Language Model Architecture and Pretraining Objective Work Best for
Zero-Shot Generalization? [50.84738303888189]
本稿では,モデル選択の大規模評価とそのゼロショット一般化への影響について述べる。
私たちは、70億以上のトークンに対して、50億以上のパラメータを持つモデルをトレーニングします。
事前学習した因果デコーダモデルを非因果デコーダモデルに効率的に適用できることが判明した。
論文 参考訳(メタデータ) (2022-04-12T14:19:49Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z) - Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A
Large-Scale Generative Language Model [35.75234515196426]
本稿では,最大のモノリシックトランスフォーマーベース言語モデルMegatron-Turing NLG 530B(MT-NLG)のトレーニングについて述べる。
MT-NLGは,いくつかのNLPベンチマークにおいて,ゼロ,ワンショット,少数ショットの学習精度が向上し,新たな最先端結果が得られた。
論文 参考訳(メタデータ) (2022-01-28T08:59:57Z) - Towards Trustworthy Deception Detection: Benchmarking Model Robustness
across Domains, Modalities, and Languages [10.131671217810581]
我々は、ドメイン外データ、モダリティ特化特徴、および英語以外の言語に対するモデルロバスト性を評価する。
我々は、追加の画像コンテンツを入力として、ELMo埋め込みはBERTまたはGLoVeと比較して大幅に少ないエラーをもたらすことを発見しました。
論文 参考訳(メタデータ) (2021-04-23T18:05:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。