論文の概要: SOLAR 10.7B: Scaling Large Language Models with Simple yet Effective
Depth Up-Scaling
- arxiv url: http://arxiv.org/abs/2312.15166v1
- Date: Sat, 23 Dec 2023 05:11:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 19:24:28.860389
- Title: SOLAR 10.7B: Scaling Large Language Models with Simple yet Effective
Depth Up-Scaling
- Title(参考訳): SOLAR 10.7B: 単純だが効果的なアップスケーリングによる大規模言語モデルのスケーリング
- Authors: Dahyun Kim, Chanjun Park, Sanghoon Kim, Wonsung Lee, Wonho Song, Yunsu
Kim, Hyeonwoo Kim, Yungi Kim, Hyeonju Lee, Jihoo Kim, Changbae Ahn, Seonghoon
Yang, Sukyung Lee, Hyunbyung Park, Gyoungjin Gim, Mikyoung Cha, Hwalsuk Lee,
Sunghun Kim
- Abstract要約: 我々は107億のパラメータを持つ大規模言語モデル(LLM)を構築し、様々な自然言語処理(NLP)タスクにおいて優れた性能を示す。
また、SOLAR 10.7B-Instructは、Mixtral-8x7Bを超越した命令追従機能用に微調整された変種である。
- 参考スコア(独自算出の注目度): 11.435566730435461
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce depth up-scaling (DUS), a novel technique to up-scale base LLMs
efficiently and effectively in a simple manner. In contrast to
mixture-of-experts (MoE), DUS does not require complex changes to train and
inference. Using DUS, we build SOLAR 10.7B, a large language model (LLM) with
10.7 billion parameters, demonstrating superior performance in various natural
language processing (NLP) tasks. Comparative evaluations show that SOLAR 10.7B
outperforms existing open-source pretrained LLMs, such as Llama 2 and Mistral
7B. We additionally present SOLAR 10.7B-Instruct, a variant fine-tuned for
instruction-following capabilities, surpassing Mixtral-8x7B. SOLAR 10.7B is
publicly available under the Apache 2.0 license, promoting broad access and
application in the LLM field.
- Abstract(参考訳): 本研究では,ベースllmを効率良くかつ効果的にスケールアップするための新しい手法であるdus( depth up-scaling)を提案する。
エキスパートの混合(MoE)とは対照的に、DUSはトレーニングや推論に複雑な変更を必要としない。
DUSを用いて107億のパラメータを持つ大規模言語モデル(LLM)であるSOLAR 10.7Bを構築し、様々な自然言語処理(NLP)タスクにおいて優れたパフォーマンスを示す。
比較評価では、SOLAR 10.7Bは、Llama 2やMistral 7Bのような既存のオープンソースの事前訓練LLMよりも優れている。
さらに,ミクストラル-8x7b を超える命令追従機能を備えた改良型 solar 10.7b-instruct も紹介する。
solar 10.7bはapache 2.0ライセンスの下で公開されており、llm分野の幅広いアクセスとアプリケーションを促進する。
関連論文リスト
- LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。
また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。
近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。
本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文 参考訳(メタデータ) (2024-06-13T07:57:27Z) - ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。
ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。
LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T10:11:26Z) - Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models [90.14693869269519]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。
本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-02-22T18:56:07Z) - InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。
この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。
InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-12T09:58:16Z) - Scaling Sentence Embeddings with Large Language Models [43.19994568210206]
本研究では,文埋め込み性能の向上を目的としたテキスト内学習手法を提案する。
提案手法では,従来のプロンプトに基づく表現手法を自己回帰モデルに適用する。
モデルサイズをスケールすることで、数千億以上のパラメータへのスケーリングが意味的なテキスト類似性タスクのパフォーマンスを損なうことが分かる。
論文 参考訳(メタデータ) (2023-07-31T13:26:03Z) - Okapi: Instruction-tuned Large Language Models in Multiple Languages
with Reinforcement Learning from Human Feedback [61.83548032416181]
複数の言語を対象としたRLHFに基づく命令調整型LLMシステムであるOkapiを提案する。
オカピは26の多言語言語でインストラクションと応答ランクデータを導入し、将来の多言語LLM研究の促進と開発に役立てている。
論文 参考訳(メタデータ) (2023-07-29T18:01:46Z) - Response Length Perception and Sequence Scheduling: An LLM-Empowered LLM
Inference Pipeline [22.08897444328099]
大規模言語モデル(LLM)はAIの分野に革命をもたらし、様々なタスクで前例のない能力を示している。
本稿では,LLMのパワーを利用する効率的なLLM推論パイプラインを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:36:06Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。