論文の概要: LLaMA Pro: Progressive LLaMA with Block Expansion
- arxiv url: http://arxiv.org/abs/2401.02415v1
- Date: Thu, 4 Jan 2024 18:59:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-05 14:23:21.706749
- Title: LLaMA Pro: Progressive LLaMA with Block Expansion
- Title(参考訳): LLaMA Pro: ブロック拡張によるプログレッシブなLLaMA
- Authors: Chengyue Wu, Yukang Gan, Yixiao Ge, Zeyu Lu, Jiahao Wang, Ye Feng,
Ping Luo, Ying Shan
- Abstract要約: 本稿では,トランスフォーマーブロックを拡張したLarge Language Models (LLM) の事前学習手法を提案する。
我々は,新たなコーパスのみを用いて拡張ブロックをチューニングし,大惨な忘れをすることなく,モデル知識を効率的に,効果的に改善する。
本稿では,LLaMA2-7Bの多元的基礎モデルであるLLaMA Pro-8.3Bのコードと数学のコーパスについて実験する。
- 参考スコア(独自算出の注目度): 69.2516595817266
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans generally acquire new skills without compromising the old; however,
the opposite holds for Large Language Models (LLMs), e.g., from LLaMA to
CodeLLaMA. To this end, we propose a new post-pretraining method for LLMs with
an expansion of Transformer blocks. We tune the expanded blocks using only new
corpus, efficiently and effectively improving the model's knowledge without
catastrophic forgetting. In this paper, we experiment on the corpus of code and
math, yielding LLaMA Pro-8.3B, a versatile foundation model initialized from
LLaMA2-7B, excelling in general tasks, programming, and mathematics. LLaMA Pro
and its instruction-following counterpart (LLaMA Pro-Instruct) achieve advanced
performance among various benchmarks, demonstrating superiority over existing
open models in the LLaMA family and the immense potential of reasoning and
addressing diverse tasks as an intelligent agent. Our findings provide valuable
insights into integrating natural and programming languages, laying a solid
foundation for developing advanced language agents that operate effectively in
various environments.
- Abstract(参考訳): 人間は一般に古いスキルを損なうことなく新しいスキルを身につけるが、LLaMAからCodeLLaMAのようなLarge Language Models(LLM)は逆である。
そこで本稿では,Transformer ブロックの拡張による LLM の事前学習手法を提案する。
我々は,新しいコーパスのみを用いて拡張ブロックをチューニングし,破滅的な忘れることなくモデルの知識を効率的かつ効果的に改善する。
本稿では,LLaMA2-7Bから初期化した汎用基盤モデルであるLLaMA Pro-8.3Bをコードと数学のコーパスとして提案する。
LLaMA Proとその命令追従系(LLaMA Pro-Instruct)は、LLaMAファミリーの既存のオープンモデルよりも優れた性能を示し、知的エージェントとして様々なタスクを推論し対処する大きな可能性を示している。
本研究は自然言語とプログラミング言語の統合に関する貴重な知見を提供し,様々な環境において効果的に動作する先進的な言語エージェントを開発するための強固な基盤を構築した。
関連論文リスト
- Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - Supervised Knowledge Makes Large Language Models Better In-context
Learners [97.71733265438044]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured
Pruning [57.12877119005303]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z) - Label Supervised LLaMA Finetuning [13.939718306233617]
本稿では,Large Language Models (LLM) のラベル管理型適応について紹介する。
最終LLaMA層から潜在表現を抽出し、ラベル空間に投影し、クロスエントロピー損失を計算する。
LS-LLaMAは、複雑な技術や外部知識がなければ、LS-LLaMAの10倍の規模でLLMを著しく上回ります。
論文 参考訳(メタデータ) (2023-10-02T13:53:03Z) - Sight Beyond Text: Multi-Modal Training Enhances LLMs in Truthfulness
and Ethics [32.123919380959485]
MLLM(Multi-modal large language model)は、大規模言語モデル(LLM)に基づいて訓練される。
マルチモーダルなタスクでは優れているが、MLLMの純粋なNLP能力はしばしば過小評価され、テストされていない。
LLMをMLLMに移行するための一般的な戦略である視覚的インストラクションチューニングは、予期せぬ、興味深いことに、改善された真理性と倫理的整合性の両方を達成するのに役立ちます。
論文 参考訳(メタデータ) (2023-09-13T17:57:21Z) - LLaMA-Adapter V2: Parameter-Efficient Visual Instruction Model [60.22693761583569]
パラメータ効率のよいビジュアルインストラクションモデルであるLLaMA-Adapter V2を提案する。
具体的には、より学習可能なパラメータをアンロックすることで、LLaMA-Adapterを初めて拡張する。
第3に、画像テキストペアと命令追従データの合同トレーニングパラダイムを導入する。
論文 参考訳(メタデータ) (2023-04-28T17:59:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。