論文の概要: Evolutionary Optimization of Model Merging Recipes
- arxiv url: http://arxiv.org/abs/2403.13187v1
- Date: Tue, 19 Mar 2024 22:56:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 18:37:24.117329
- Title: Evolutionary Optimization of Model Merging Recipes
- Title(参考訳): モデルマージレシピの進化的最適化
- Authors: Takuya Akiba, Makoto Shing, Yujin Tang, Qi Sun, David Ha,
- Abstract要約: 本稿では、強力な基礎モデルの作成を自動化するための進化的アルゴリズムの新たな応用について述べる。
本稿では,様々なオープンソースモデルの効果的な組み合わせを自動的に発見することで,制限を克服する進化的アプローチを提案する。
この研究は、新しい最先端のモデルをオープンソースコミュニティに提供し、また、自動化されたモデル構成のための新しいパラダイムも導入している。
- 参考スコア(独自算出の注目度): 21.41838972039297
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel application of evolutionary algorithms to automate the creation of powerful foundation models. While model merging has emerged as a promising approach for LLM development due to its cost-effectiveness, it currently relies on human intuition and domain knowledge, limiting its potential. Here, we propose an evolutionary approach that overcomes this limitation by automatically discovering effective combinations of diverse open-source models, harnessing their collective intelligence without requiring extensive additional training data or compute. Our approach operates in both parameter space and data flow space, allowing for optimization beyond just the weights of the individual models. This approach even facilitates cross-domain merging, generating models like a Japanese LLM with Math reasoning capabilities. Surprisingly, our Japanese Math LLM achieved state-of-the-art performance on a variety of established Japanese LLM benchmarks, even surpassing models with significantly more parameters, despite not being explicitly trained for such tasks. Furthermore, a culturally-aware Japanese VLM generated through our approach demonstrates its effectiveness in describing Japanese culture-specific content, outperforming previous Japanese VLMs. This work not only contributes new state-of-the-art models back to the open-source community, but also introduces a new paradigm for automated model composition, paving the way for exploring alternative, efficient approaches to foundation model development.
- Abstract(参考訳): 本稿では、強力な基礎モデルの作成を自動化するための進化的アルゴリズムの新たな応用について述べる。
モデルマージは、LLM開発においてコスト効率のために有望なアプローチとして現れてきたが、現在は人間の直観とドメイン知識に依存しており、その可能性を制限する。
本稿では、多様なオープンソースモデルの効果的な組み合わせを自動的に発見し、大規模なトレーニングデータや計算を必要とせず、その集合的知性を活用することにより、この制限を克服する進化的アプローチを提案する。
我々の手法はパラメータ空間とデータフロー空間の両方で動作し、個々のモデルの重み以上の最適化を可能にする。
このアプローチはドメイン間のマージを容易にし、Math推論機能を備えた日本のLLMのようなモデルを生成する。
驚くべきことに、我々の日本語数学 LLM は、これらのタスクを明示的に訓練されていないにもかかわらず、パラメータがかなり多いモデルよりもはるかに多く、様々な確立された日本語 LLM ベンチマークで最先端のパフォーマンスを達成した。
さらに,本手法により得られた文化に配慮したVLMは,従来のVLMよりも優れた日本文化特化コンテンツを記述する上で,その効果を実証する。
この作業は、新しい最先端のモデルをオープンソースコミュニティに還元するだけでなく、自動化されたモデル構成のための新しいパラダイムを導入し、基盤モデル開発への代替的で効率的なアプローチを探求する道を開いた。
関連論文リスト
- Weak-to-Strong Extrapolation Expedites Alignment [135.12769233630362]
人間の嗜好とLLMの整合性を高めるための簡単なExPO法を提案する。
AlpacaEval 2.0ベンチマークでは、ExPOがトレーニングされたモデルに、より好みの少ないデータで到達し、完全にトレーニングされたデータを超えていることが示されています。
本研究は,LLMの能力を利用したモデル外挿の有効性を実証する。
論文 参考訳(メタデータ) (2024-04-25T17:39:50Z) - Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters [57.03374531297098]
本稿では,視覚言語モデルを用いた漸進的学習における長期的忘れを緩和するパラメータ効率の連続学習フレームワークを提案する。
提案手法では,Mixture-of-Experts (MoE)アダプタの統合により,事前学習したCLIPモデルの動的拡張を行う。
視覚言語モデルのゼロショット認識能力を維持するために,分布判別オートセレクタを提案する。
論文 参考訳(メタデータ) (2024-03-18T08:00:23Z) - LLM Augmented LLMs: Expanding Capabilities through Composition [56.40953749310957]
CALM -- 言語モデルの拡張のための構成 -- は、モデル間の相互アテンションを導入して、表現を構成し、新しい機能を有効にする。
低リソース言語で訓練されたより小さなモデルでPaLM2-Sを増強すると、英語への翻訳のようなタスクで最大13%の改善が達成される。
PaLM2-Sがコード固有モデルで拡張されると、コード生成や説明タスクのベースモデルよりも40%向上する。
論文 参考訳(メタデータ) (2024-01-04T18:53:01Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language
Models [56.84735912476625]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - Do Generative Large Language Models need billions of parameters? [0.0]
この研究は、モデルの異なる部分がパラメータを共有することを可能にする新しい方法を探究する。
このアプローチは、複雑な言語構造を学習し表現する能力を犠牲にすることなく、モデルがコンパクトであることを保証する。
論文 参考訳(メタデータ) (2023-09-12T20:25:22Z) - Lightweight reranking for language model generations [26.942659041383596]
本稿では,Large Language Models (LLM) 世代を再評価するための新しいアプローチを提案する。
追加の推論や特殊リランカの訓練を含む他の手法とは異なり、我々の手法はペアワイズ統計の計算が容易である。
コード生成タスクで最高のk世代を選択するための強力な改善と、オートフォーマライズ、要約、翻訳のタスクで最高の世代で堅牢な改善を示す。
論文 参考訳(メタデータ) (2023-07-11T17:51:48Z) - Improving Small Language Models on PubMedQA via Generative Data
Augmentation [4.96649519549027]
大規模言語モデル (LLM) は自然言語処理の分野で顕著な進歩を遂げている。
小型言語モデル(SLM)はその効率で知られているが、限られた能力と訓練データに悩まされることが多い。
医療領域におけるSLMの改善を目的とした,LLMに基づく生成データ拡張を用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-12T23:49:23Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Mengzi: Towards Lightweight yet Ingenious Pre-trained Models for Chinese [33.83704598544326]
Mengziは、差別的、生成的、ドメイン固有、およびマルチモーダル事前訓練されたモデルの亜種である。
中国の公共のPLMと比較すると、メンジは単純だがより強力である。
我々の軽量モデルは、広く使われているCLUEベンチマークにおいて、最先端の新たな結果を得た。
論文 参考訳(メタデータ) (2021-10-13T13:14:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。