論文の概要: Aurora:Activating Chinese chat capability for Mixtral-8x7B sparse
Mixture-of-Experts through Instruction-Tuning
- arxiv url: http://arxiv.org/abs/2312.14557v2
- Date: Mon, 1 Jan 2024 09:24:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-02 20:23:11.063757
- Title: Aurora:Activating Chinese chat capability for Mixtral-8x7B sparse
Mixture-of-Experts through Instruction-Tuning
- Title(参考訳): Aurora:Mixtral-8x7B sparse Mixture-of-Expertsのインストラクションチューニングによる中国語チャット機能の活性化
- Authors: Rongsheng Wang, Haoming Chen, Ruizhe Zhou, Yaofei Duan, Kunyan Cai,
Han Ma, Jiaxi Cui, Jian Li, Patrick Cheong-Iao Pang, Yapeng Wang, Tao Tan
- Abstract要約: この研究は、スパースの専門家混合モデル上での命令微調整の実行において先駆的なものである。
オーロラと呼ばれるMixtral-8x7BスパースMixture-of-Expertsモデルを構築した。
- 参考スコア(独自算出の注目度): 6.85686991085197
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing research has demonstrated that refining large language models (LLMs)
through the utilization of machine-generated instruction-following data
empowers these models to exhibit impressive zero-shot capabilities for novel
tasks, without requiring human-authored instructions. In this paper, we
systematically investigate, preprocess, and integrate three Chinese
instruction-following datasets with the aim of enhancing the Chinese
conversational capabilities of Mixtral-8x7B sparse Mixture-of-Experts model.
Through instruction fine-tuning on this carefully processed dataset, we
successfully construct the Mixtral-8x7B sparse Mixture-of-Experts model named
"Aurora." To assess the performance of Aurora, we utilize three widely
recognized benchmark tests: C-Eval, MMLU, and CMMLU. Empirical studies validate
the effectiveness of instruction fine-tuning applied to Mixtral-8x7B sparse
Mixture-of-Experts model. This work is pioneering in the execution of
instruction fine-tuning on a sparse expert-mixed model, marking a significant
breakthrough in enhancing the capabilities of this model architecture. Our
code, data and model are publicly available at
https://github.com/WangRongsheng/Aurora
- Abstract(参考訳): 既存の研究では、機械が生成する命令追従データを利用して大言語モデル(LLM)を精細化することで、人間が許可する命令を必要とせず、新しいタスクに対して印象的なゼロショット能力を発揮することが実証されている。
本稿では,Mixtral-8x7B sparse Mixture-of-Experts モデルの中国語会話能力向上を目的とした,中国語の命令追従データセットの体系化,事前処理,統合を行う。
この慎重に処理されたデータセットを微調整することで、Mixtral-8x7Bのスパースミクチャー・オブ・エクスプローラモデル"Aurora"の構築に成功した。
オーロラの性能を評価するために,C-Eval, MMLU, CMMLUの3つのベンチマークテストを利用する。
Mixtral-8x7B sparse Mixture-of-Experts モデルに適用した命令微調整の有効性を実証研究により検証した。
この研究は、スパースなエキスパート混合モデルにおける命令の微調整の実行において先駆的であり、このモデルアーキテクチャの能力向上において重要なブレークスルーとなった。
私たちのコード、データ、モデルはhttps://github.com/wangrongsheng/auroraで公開されている。
関連論文リスト
- Fast LiDAR Upsampling using Conditional Diffusion Models [1.3709133749179265]
既存の手法は拡散モデルを用いて高忠実度で洗練されたLiDARデータを生成する可能性を示している。
高速かつ高品質な3次元シーンポイント雲のスパース・ツー・デンスアップサンプリングのための条件拡散モデルに基づく新しいアプローチを提案する。
本手法では,条件付き塗装マスクを用いて訓練した拡散確率モデルを用いて,画像補完タスクの性能向上を図っている。
論文 参考訳(メタデータ) (2024-05-08T08:38:28Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z) - LiDAR Data Synthesis with Denoising Diffusion Probabilistic Models [1.1965844936801797]
3D LiDARデータの生成モデリングは、自律移動ロボットに有望な応用をもたらす新たな課題である。
我々は,多種多様かつ高忠実な3Dシーンポイント雲を生成可能な,LiDARデータのための新しい生成モデルR2DMを提案する。
本手法は拡散確率モデル (DDPM) を用いて構築され, 生成モデルフレームワークにおいて顕著な結果が得られた。
論文 参考訳(メタデータ) (2023-09-17T12:26:57Z) - How Far Can Camels Go? Exploring the State of Instruction Tuning on Open
Resources [117.6496550359768]
この研究は、オープンな命令追従データセットにおける命令チューニング言語モデルの最近の進歩を探求する。
我々は、12の命令データセットに基づいて訓練された6.7Bから65Bのパラメータを含む、命令調整されたモデルの大規模なセットを提供する。
それらの事実的知識、推論、多言語性、コーディング、そしてその後に続くオープン・エンド・インストラクションに基づいて評価する。
論文 参考訳(メタデータ) (2023-06-07T19:59:23Z) - MV-JAR: Masked Voxel Jigsaw and Reconstruction for LiDAR-Based
Self-Supervised Pre-Training [58.07391711548269]
Masked Voxel Jigsaw and Reconstruction (MV-JAR) method for LiDAR-based self-supervised pre-training
Masked Voxel Jigsaw and Reconstruction (MV-JAR) method for LiDAR-based self-supervised pre-training
論文 参考訳(メタデータ) (2023-03-23T17:59:02Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - Navigating Ensemble Configurations for Algorithmic Fairness [8.441248174955465]
バイアス緩和器は機械学習モデルのアルゴリズム的公正性を改善することができるが、公平性に対する影響はデータ分割間では安定しないことが多い。
より安定したモデルをトレーニングするための一般的なアプローチは、アンサンブル学習である。
論文 参考訳(メタデータ) (2022-10-11T16:31:47Z) - DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with
Gradient-Disentangled Embedding Sharing [117.41016786835452]
本稿では,DeBERTaモデルの改良を目的とした,事前学習型言語モデルDeBERTaV3を提案する。
ELECTRAでのバニラ埋め込み共有は、トレーニング効率とモデルパフォーマンスを損なう。
そこで本研究では、タグ・オブ・ウォーのダイナミクスを回避するために、新しい勾配距離の埋め込み方式を提案する。
論文 参考訳(メタデータ) (2021-11-18T06:48:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。