Fugu-MT 論文翻訳(概要): Aurora:Activating Chinese chat capability for Mixtral-8x7B sparse Mixture-of-Experts through Instruction-Tuning

論文の概要: Aurora:Activating Chinese chat capability for Mixtral-8x7B sparse Mixture-of-Experts through Instruction-Tuning

arxiv url: http://arxiv.org/abs/2312.14557v2
Date: Mon, 1 Jan 2024 09:24:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-02 20:23:11.063757
Title: Aurora:Activating Chinese chat capability for Mixtral-8x7B sparse Mixture-of-Experts through Instruction-Tuning
Title（参考訳）: Aurora:Mixtral-8x7B sparse Mixture-of-Expertsのインストラクションチューニングによる中国語チャット機能の活性化
Authors: Rongsheng Wang, Haoming Chen, Ruizhe Zhou, Yaofei Duan, Kunyan Cai, Han Ma, Jiaxi Cui, Jian Li, Patrick Cheong-Iao Pang, Yapeng Wang, Tao Tan
Abstract要約: この研究は、スパースの専門家混合モデル上での命令微調整の実行において先駆的なものである。オーロラと呼ばれるMixtral-8x7BスパースMixture-of-Expertsモデルを構築した。
参考スコア（独自算出の注目度）: 6.85686991085197
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Existing research has demonstrated that refining large language models (LLMs) through the utilization of machine-generated instruction-following data empowers these models to exhibit impressive zero-shot capabilities for novel tasks, without requiring human-authored instructions. In this paper, we systematically investigate, preprocess, and integrate three Chinese instruction-following datasets with the aim of enhancing the Chinese conversational capabilities of Mixtral-8x7B sparse Mixture-of-Experts model. Through instruction fine-tuning on this carefully processed dataset, we successfully construct the Mixtral-8x7B sparse Mixture-of-Experts model named "Aurora." To assess the performance of Aurora, we utilize three widely recognized benchmark tests: C-Eval, MMLU, and CMMLU. Empirical studies validate the effectiveness of instruction fine-tuning applied to Mixtral-8x7B sparse Mixture-of-Experts model. This work is pioneering in the execution of instruction fine-tuning on a sparse expert-mixed model, marking a significant breakthrough in enhancing the capabilities of this model architecture. Our code, data and model are publicly available at https://github.com/WangRongsheng/Aurora
Abstract（参考訳）: 既存の研究では、機械が生成する命令追従データを利用して大言語モデル(LLM)を精細化することで、人間が許可する命令を必要とせず、新しいタスクに対して印象的なゼロショット能力を発揮することが実証されている。本稿では,Mixtral-8x7B sparse Mixture-of-Experts モデルの中国語会話能力向上を目的とした,中国語の命令追従データセットの体系化,事前処理,統合を行う。この慎重に処理されたデータセットを微調整することで、Mixtral-8x7Bのスパースミクチャー・オブ・エクスプローラモデル"Aurora"の構築に成功した。オーロラの性能を評価するために,C-Eval, MMLU, CMMLUの3つのベンチマークテストを利用する。 Mixtral-8x7B sparse Mixture-of-Experts モデルに適用した命令微調整の有効性を実証研究により検証した。この研究は、スパースなエキスパート混合モデルにおける命令の微調整の実行において先駆的であり、このモデルアーキテクチャの能力向上において重要なブレークスルーとなった。私たちのコード、データ、モデルはhttps://github.com/wangrongsheng/auroraで公開されている。

関連論文リスト

FLAME-MoE: A Transparent End-to-End Research Platform for Mixture-of-Experts Language Models [19.984973014373118]
FLAME-MoEは7つのデコーダのみのモデルからなる完全にオープンソースな研究スイートである。 FLAME-MoEは、同一のFLOPで訓練された密度の高いベースラインよりも平均精度を最大3.4ポイント向上させる。
論文参考訳（メタデータ） (2025-05-26T17:06:25Z)
Pangu Ultra MoE: How to Train Your Big MoE on Ascend NPUs [111.69640966866059]
ミキチャー・オブ・エキスパート(MoE)と1兆近いパラメータを持つ疎大言語モデル(LLM)が、最も有能な言語モデルの領域を支配している。本稿では,Ascend NPU上でそのようなスケールを利用するレシピを明らかにすることを目的としている。主な目的は、動的スパースモデル構造下でのコンピューティングリソースのより良い使用と、実際のハードウェアで期待されるパフォーマンス向上の実現である。
論文参考訳（メタデータ） (2025-05-07T15:46:36Z)
MoE-Pruner: Pruning Mixture-of-Experts Large Language Model using the Hints from Its Router [55.88046193872355]
Mixture-of-Experts (MoE)アーキテクチャは、専門家のメモリ消費や冗長性といった課題に直面している。入力アクティベーションとルータ重みを乗じて最小の重みを求める手法であるMoE-Prunerを提案する。我々の刈り取り法は単発であり、再訓練や重み更新は不要である。
論文参考訳（メタデータ） (2024-10-15T19:22:27Z)
No Need to Talk: Asynchronous Mixture of Language Models [25.3581396758015]
Smalltalk LMは、ほぼ非同期な方法で言語モデルの混合を訓練するための革新的な方法である。推測では、短いプレフィックスによると、軽量ルータが与えられたシーケンスを単一の専門家に指示する。言語モデリング実験により、SMALLTALK LMは高密度モデルベースラインよりも非常に低いパープレキシティを実現することが示された。
論文参考訳（メタデータ） (2024-10-04T15:50:10Z)
Towards Effective and Efficient Continual Pre-training of Large Language Models [163.34610964970258]
CPT(Continuous pre-training)は、特定のドメインやタスクに言語モデルを適用する上で重要なアプローチである。本稿では,Llama-3 (8B) の継続事前訓練に関する技術的報告を報告する。バックボーンモデルの中国語能力と科学的推論能力を大幅に向上させる。
論文参考訳（メタデータ） (2024-07-26T13:55:21Z)
AgentInstruct: Toward Generative Teaching with Agentic Flows [12.192372792525726]
我々は、ポストトレーニングに合成データを使うこと、特に、他のモデルに新しいスキルや振る舞いを教えるために、強力なモデルでデータを作成することに重点を置いている。本稿では,多種多様な高品質な合成データを自動生成するエージェントフレームワークであるAgentInstructを紹介する。テキスト編集,創造的執筆,ツール使用,コーディング,理解の理解など,さまざまなスキルを学習するための,2500万対のポストトレーニングデータセットを作成することで,AgentInstructの有用性を実証する。
論文参考訳（メタデータ） (2024-07-03T21:01:12Z)
DataComp-LM: In search of the next generation of training sets for language models [200.5293181577585]
DataComp for Language Models (DCLM)は、制御されたデータセット実験のためのテストベッドであり、言語モデルを改善することを目的としている。我々は、Common Crawlから抽出された240Tトークンの標準化コーパス、OpenLMフレームワークに基づく効果的な事前学習レシピ、53の下流評価スイートを提供する。 DCLMベンチマークの参加者は、412Mから7Bパラメータのモデルスケールでの重複、フィルタリング、データ混合などのデータキュレーション戦略を実験することができる。
論文参考訳（メタデータ） (2024-06-17T17:42:57Z)
Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文参考訳（メタデータ） (2024-05-06T16:03:32Z)
Mixture-of-Instructions: Aligning Large Language Models via Mixture Prompting [7.103987978402038]
我々はMixture-of-Instructions (MoI)と呼ばれる新しいテクニックを紹介する。 MoIは命令パッキングと多様なシステムプロンプトを組み合わせて言語モデルのアライメント効率を高める戦略を採用している。提案手法はオープンソースQwen-7B-chatモデルに適用され,Qwen-SFT-MoIの開発が完了した。
論文参考訳（メタデータ） (2024-04-29T03:58:12Z)
Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文参考訳（メタデータ） (2023-10-02T09:47:40Z)
LiDAR Data Synthesis with Denoising Diffusion Probabilistic Models [1.1965844936801797]
3D LiDARデータの生成モデリングは、自律移動ロボットに有望な応用をもたらす新たな課題である。我々は,多種多様かつ高忠実な3Dシーンポイント雲を生成可能な,LiDARデータのための新しい生成モデルR2DMを提案する。本手法は拡散確率モデル (DDPM) を用いて構築され, 生成モデルフレームワークにおいて顕著な結果が得られた。
論文参考訳（メタデータ） (2023-09-17T12:26:57Z)
MV-JAR: Masked Voxel Jigsaw and Reconstruction for LiDAR-Based Self-Supervised Pre-Training [58.07391711548269]
Masked Voxel Jigsaw and Reconstruction (MV-JAR) method for LiDAR-based self-supervised pre-training Masked Voxel Jigsaw and Reconstruction (MV-JAR) method for LiDAR-based self-supervised pre-training
論文参考訳（メタデータ） (2023-03-23T17:59:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。