Fugu-MT 論文翻訳(概要): Mistral 7B

論文の概要: Mistral 7B

arxiv url: http://arxiv.org/abs/2310.06825v1
Date: Tue, 10 Oct 2023 17:54:58 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-11 14:15:21.321884
Title: Mistral 7B
Title（参考訳）: ミストラル7B
Authors: Albert Q. Jiang, Alexandre Sablayrolles, Arthur Mensch, Chris Bamford, Devendra Singh Chaplot, Diego de las Casas, Florian Bressand, Gianna Lengyel, Guillaume Lample, Lucile Saulnier, L\'elio Renard Lavaud, Marie-Anne Lachaux, Pierre Stock, Teven Le Scao, Thibaut Lavril, Thomas Wang, Timoth\'ee Lacroix, William El Sayed
Abstract要約: Mistral 7Bはすべての評価ベンチマークでLlama 2 13B、推論、数学、コード生成でLlama 1 34Bを上回っている。また、命令に従うように微調整されたモデルも提供します。 Mistral 7B -- Instructは、Llama 2 13Bを越え、人間と自動化ベンチマークの両方でチャットモデルを提供します。
参考スコア（独自算出の注目度）: 62.17530433867458
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce Mistral 7B v0.1, a 7-billion-parameter language model engineered for superior performance and efficiency. Mistral 7B outperforms Llama 2 13B across all evaluated benchmarks, and Llama 1 34B in reasoning, mathematics, and code generation. Our model leverages grouped-query attention (GQA) for faster inference, coupled with sliding window attention (SWA) to effectively handle sequences of arbitrary length with a reduced inference cost. We also provide a model fine-tuned to follow instructions, Mistral 7B -- Instruct, that surpasses the Llama 2 13B -- Chat model both on human and automated benchmarks. Our models are released under the Apache 2.0 license.
Abstract（参考訳）: 性能と効率性に優れた7ビリオンパラメータ言語モデルであるMistral 7B v0.1を紹介する。 Mistral 7Bはすべての評価ベンチマークでLlama 2 13B、推論、数学、コード生成でLlama 1 34Bを上回っている。我々のモデルは高速な推論のためにグループクエリアテンション(GQA)を利用し、スライディングウィンドウアテンション(SWA)と組み合わせて、任意の長さのシーケンスを推論コストの削減で効果的に処理する。また、命令に従うように微調整されたモデル、Mistral 7B -- Instruct -- Llama 2 13Bを越え、人間と自動化ベンチマークの両方でチャットモデルを提供しています。私たちのモデルはApache 2.0ライセンスでリリースされています。

関連論文リスト

FuseChat-3.0: Preference Optimization Meets Heterogeneous Model Fusion [32.0871035771324]
FuseChat-3.0は、異種音源LLMの強みをよりコンパクトな目標LLMに組み込むことによって開発された大型言語モデル(LLM)のスイートである。ターゲットモデルでは、Llama-3.1-8B-インストラクト、Gemma-2-9B-it、Qwen-2.5-72B-インストラクトの3種類に焦点をあてる。結果として得られたFuseChat-3.0モデルは、命令追従、一般的な知識、数学、コーディングといったタスク間で大きなパフォーマンス向上を示す。
論文参考訳（メタデータ） (2025-03-06T09:03:36Z)
MoE-Pruner: Pruning Mixture-of-Experts Large Language Model using the Hints from Its Router [55.88046193872355]
Mixture-of-Experts (MoE)アーキテクチャは、専門家のメモリ消費や冗長性といった課題に直面している。入力アクティベーションとルータ重みを乗じて最小の重みを求める手法であるMoE-Prunerを提案する。我々の刈り取り法は単発であり、再訓練や重み更新は不要である。
論文参考訳（メタデータ） (2024-10-15T19:22:27Z)
Just Say What You Want: Only-prompting Self-rewarding Online Preference Optimization [64.34767799614328]
現在の自己回帰アプローチは、差別者の判断能力に大きく依存している。本稿では,判断能力に頼らずに嗜好データセットを生成する,新たな自己回帰型オンラインアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-09-26T04:41:08Z)
GRIN: GRadient-INformed MoE [132.87651078514122]
Mixture-of-Experts (MoE)モデルは、エキスパートルーティングによるスパース計算により、密度の高いモデルよりも効果的にスケールする。エキスパートルーティングのためのスパース勾配推定を組み込んだGRIN(GRadient-Informed MoE Training)を導入する。我々のモデルは6.6Bの活性化パラメータしか持たないが、7Bの密度モデルより優れており、同じデータで訓練された14Bの密度モデルの性能と一致している。
論文参考訳（メタデータ） (2024-09-18T17:00:20Z)
LLM Pruning and Distillation in Practice: The Minitron Approach [61.56557874432008]
Llama 3.1 8B および Mistral NeMo 12B モデルを 4B および 8B パラメータに圧縮する。 1)深い刈り込みと(2)隠れた/保持/MLP(幅)刈り込みという2つの異なる刈り出し方を探る。このアプローチは、Llama 3.1 8Bから魅力的な4Bモデル、Mistral NeMo 12Bから最先端のMistral-NeMo-Minitron-8Bモデルを生成する。
論文参考訳（メタデータ） (2024-08-21T17:38:48Z)
A Teacher Is Worth A Million Instructions [4.322454918650575]
提案手法を用いた微調整Mistral 7Bと2x7Bは、7Bおよび13B以上のパラメータを持つ最先端言語モデルの性能を上回る。
論文参考訳（メタデータ） (2024-06-27T11:48:25Z)
Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。 Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文参考訳（メタデータ） (2024-04-02T16:25:30Z)
ORPO: Monolithic Preference Optimization without Reference Model [9.53888551630878]
選好アライメントの文脈において,教師付き微調整が果たす重要な役割について検討した。モデルフリーなモノリシックオッズ比最適化アルゴリズムORPOを導入し、追加の選好アライメントフェーズの必要性を排除した。具体的には、Phi-2 (2.7B)、Llama-2 (7B)、Mistral (7B)、ORPO on the UltraFeedbackは、7Bと13B以上のパラメータを持つ最先端言語モデルの性能を上回っている。
論文参考訳（メタデータ） (2024-03-12T14:34:08Z)
Large Malaysian Language Model Based on Mistral for Enhanced Local Language Understanding [0.0]
大規模言語モデルであるMistral 7Bの事前学習の進歩を示す。コンテクスト長4096と32768のトークンを持つモデルをリリースし、16384のコンテクスト長調整モデルでさらなる性能向上を図る。マレーシアのミストラルがタタバハサ(マレー文法)テストセットで優れていることを示す説得力のある結果を示す。
論文参考訳（メタデータ） (2024-01-24T16:21:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。