Fugu-MT 論文翻訳(概要): LLaMA Pro: Progressive LLaMA with Block Expansion

論文の概要: LLaMA Pro: Progressive LLaMA with Block Expansion

arxiv url: http://arxiv.org/abs/2401.02415v1
Date: Thu, 4 Jan 2024 18:59:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-05 14:23:21.706749
Title: LLaMA Pro: Progressive LLaMA with Block Expansion
Title（参考訳）: LLaMA Pro: ブロック拡張によるプログレッシブなLLaMA
Authors: Chengyue Wu, Yukang Gan, Yixiao Ge, Zeyu Lu, Jiahao Wang, Ye Feng, Ping Luo, Ying Shan
Abstract要約: 本稿では,トランスフォーマーブロックを拡張したLarge Language Models (LLM) の事前学習手法を提案する。我々は,新たなコーパスのみを用いて拡張ブロックをチューニングし,大惨な忘れをすることなく,モデル知識を効率的に,効果的に改善する。本稿では,LLaMA2-7Bの多元的基礎モデルであるLLaMA Pro-8.3Bのコードと数学のコーパスについて実験する。
参考スコア（独自算出の注目度）: 69.2516595817266
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Humans generally acquire new skills without compromising the old; however, the opposite holds for Large Language Models (LLMs), e.g., from LLaMA to CodeLLaMA. To this end, we propose a new post-pretraining method for LLMs with an expansion of Transformer blocks. We tune the expanded blocks using only new corpus, efficiently and effectively improving the model's knowledge without catastrophic forgetting. In this paper, we experiment on the corpus of code and math, yielding LLaMA Pro-8.3B, a versatile foundation model initialized from LLaMA2-7B, excelling in general tasks, programming, and mathematics. LLaMA Pro and its instruction-following counterpart (LLaMA Pro-Instruct) achieve advanced performance among various benchmarks, demonstrating superiority over existing open models in the LLaMA family and the immense potential of reasoning and addressing diverse tasks as an intelligent agent. Our findings provide valuable insights into integrating natural and programming languages, laying a solid foundation for developing advanced language agents that operate effectively in various environments.
Abstract（参考訳）: 人間は一般に古いスキルを損なうことなく新しいスキルを身につけるが、LLaMAからCodeLLaMAのようなLarge Language Models(LLM)は逆である。そこで本稿では,Transformer ブロックの拡張による LLM の事前学習手法を提案する。我々は,新しいコーパスのみを用いて拡張ブロックをチューニングし,破滅的な忘れることなくモデルの知識を効率的かつ効果的に改善する。本稿では,LLaMA2-7Bから初期化した汎用基盤モデルであるLLaMA Pro-8.3Bをコードと数学のコーパスとして提案する。 LLaMA Proとその命令追従系(LLaMA Pro-Instruct)は、LLaMAファミリーの既存のオープンモデルよりも優れた性能を示し、知的エージェントとして様々なタスクを推論し対処する大きな可能性を示している。本研究は自然言語とプログラミング言語の統合に関する貴重な知見を提供し,様々な環境において効果的に動作する先進的な言語エージェントを開発するための強固な基盤を構築した。

関連論文リスト

Large Language Diffusion Models [93.26422905620008]
大規模言語モデル(LLM)は自己回帰モデル(ARM)に依存していると考えられている。我々は,事前学習および教師付き微調整パラダイムの下で,ゼロから学習した拡散モデルであるLLaDAを紹介する。一般的なタスクや数学、コードなどに関する広範なベンチマークを通じて、LLaDAは強力なスケーラビリティを示し、自己構築されたARMベースラインと互換性のあるパフォーマンスを実現しています。
論文参考訳（メタデータ） (2025-02-14T08:23:51Z)
Improving Multimodal Large Language Models Using Continual Learning [16.28968930137886]
生成型大規模言語モデル(LLM)は、事前学習された視覚モデルを元のLLMに統合することにより、優れた機能を示す。この統合は、元々のLLMと比較して、自然言語理解および生成タスクの性能を著しく低下させる。言語能力の損失を最小限に抑えながら視覚的理解を高める手法を,5つの連続学習手法を用いて検討した。
論文参考訳（メタデータ） (2024-10-25T18:50:40Z)
LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文参考訳（メタデータ） (2024-10-21T17:41:28Z)
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。 LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文参考訳（メタデータ） (2024-06-20T13:08:09Z)
Genshin: General Shield for Natural Language Processing with Large Language Models [6.228210545695852]
大規模言語モデル(LLM)が最近流行し、無数のドメインでかなりの進歩と一般化能力を示している。 LLMは不透明度を悪化させるさらに大きなブラックボックスを作り、解釈可能性はほとんどない。本稿では, LLMの一般化可能性, 中央モデルの識別, 単純モデルの解釈可能性を組み合わせた, ゲンシンと呼ばれる新しいカスケーディングフレームワークを提案する。
論文参考訳（メタデータ） (2024-05-29T04:04:05Z)
Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文参考訳（メタデータ） (2024-01-19T05:02:46Z)
If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練されるコードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文参考訳（メタデータ） (2024-01-01T16:51:20Z)
Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文参考訳（メタデータ） (2023-12-26T07:24:46Z)
Label Supervised LLaMA Finetuning [13.939718306233617]
本稿では,Large Language Models (LLM) のラベル管理型適応について紹介する。最終LLaMA層から潜在表現を抽出し、ラベル空間に投影し、クロスエントロピー損失を計算する。 LS-LLaMAは、複雑な技術や外部知識がなければ、LS-LLaMAの10倍の規模でLLMを著しく上回ります。
論文参考訳（メタデータ） (2023-10-02T13:53:03Z)
Sight Beyond Text: Multi-Modal Training Enhances LLMs in Truthfulness and Ethics [32.123919380959485]
MLLM(Multi-modal large language model)は、大規模言語モデル(LLM)に基づいて訓練される。マルチモーダルなタスクでは優れているが、MLLMの純粋なNLP能力はしばしば過小評価され、テストされていない。 LLMをMLLMに移行するための一般的な戦略である視覚的インストラクションチューニングは、予期せぬ、興味深いことに、改善された真理性と倫理的整合性の両方を達成するのに役立ちます。
論文参考訳（メタデータ） (2023-09-13T17:57:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。