論文の概要: Evolutionary Optimization of Model Merging Recipes
- arxiv url: http://arxiv.org/abs/2403.13187v1
- Date: Tue, 19 Mar 2024 22:56:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 18:37:24.117329
- Title: Evolutionary Optimization of Model Merging Recipes
- Title(参考訳): モデルマージレシピの進化的最適化
- Authors: Takuya Akiba, Makoto Shing, Yujin Tang, Qi Sun, David Ha,
- Abstract要約: 本稿では、強力な基礎モデルの作成を自動化するための進化的アルゴリズムの新たな応用について述べる。
本稿では,様々なオープンソースモデルの効果的な組み合わせを自動的に発見することで,制限を克服する進化的アプローチを提案する。
この研究は、新しい最先端のモデルをオープンソースコミュニティに提供し、また、自動化されたモデル構成のための新しいパラダイムも導入している。
- 参考スコア(独自算出の注目度): 21.41838972039297
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel application of evolutionary algorithms to automate the creation of powerful foundation models. While model merging has emerged as a promising approach for LLM development due to its cost-effectiveness, it currently relies on human intuition and domain knowledge, limiting its potential. Here, we propose an evolutionary approach that overcomes this limitation by automatically discovering effective combinations of diverse open-source models, harnessing their collective intelligence without requiring extensive additional training data or compute. Our approach operates in both parameter space and data flow space, allowing for optimization beyond just the weights of the individual models. This approach even facilitates cross-domain merging, generating models like a Japanese LLM with Math reasoning capabilities. Surprisingly, our Japanese Math LLM achieved state-of-the-art performance on a variety of established Japanese LLM benchmarks, even surpassing models with significantly more parameters, despite not being explicitly trained for such tasks. Furthermore, a culturally-aware Japanese VLM generated through our approach demonstrates its effectiveness in describing Japanese culture-specific content, outperforming previous Japanese VLMs. This work not only contributes new state-of-the-art models back to the open-source community, but also introduces a new paradigm for automated model composition, paving the way for exploring alternative, efficient approaches to foundation model development.
- Abstract(参考訳): 本稿では、強力な基礎モデルの作成を自動化するための進化的アルゴリズムの新たな応用について述べる。
モデルマージは、LLM開発においてコスト効率のために有望なアプローチとして現れてきたが、現在は人間の直観とドメイン知識に依存しており、その可能性を制限する。
本稿では、多様なオープンソースモデルの効果的な組み合わせを自動的に発見し、大規模なトレーニングデータや計算を必要とせず、その集合的知性を活用することにより、この制限を克服する進化的アプローチを提案する。
我々の手法はパラメータ空間とデータフロー空間の両方で動作し、個々のモデルの重み以上の最適化を可能にする。
このアプローチはドメイン間のマージを容易にし、Math推論機能を備えた日本のLLMのようなモデルを生成する。
驚くべきことに、我々の日本語数学 LLM は、これらのタスクを明示的に訓練されていないにもかかわらず、パラメータがかなり多いモデルよりもはるかに多く、様々な確立された日本語 LLM ベンチマークで最先端のパフォーマンスを達成した。
さらに,本手法により得られた文化に配慮したVLMは,従来のVLMよりも優れた日本文化特化コンテンツを記述する上で,その効果を実証する。
この作業は、新しい最先端のモデルをオープンソースコミュニティに還元するだけでなく、自動化されたモデル構成のための新しいパラダイムを導入し、基盤モデル開発への代替的で効率的なアプローチを探求する道を開いた。
関連論文リスト
- Multiagent Finetuning: Self Improvement with Diverse Reasoning Chains [114.76612918465948]
大規模言語モデル(LLM)は近年顕著なパフォーマンスを達成しているが、基礎となるトレーニングデータによって根本的に制限されている。
本稿では,言語モデルのマルチエージェント社会にファインタニングを適用した自己改善への補完的アプローチを提案する。
論文 参考訳(メタデータ) (2025-01-10T04:35:46Z) - Exploring Model Kinship for Merging Large Language Models [52.01652098827454]
本稿では,大規模言語モデル間の類似性や関連性の程度であるモデル親和性を紹介する。
モデル統合後の性能向上とモデル親和性の間には,一定の関係があることが判明した。
我々は新しいモデルマージ戦略を提案する。Top-k Greedy Merging with Model Kinship。
論文 参考訳(メタデータ) (2024-10-16T14:29:29Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - Knowledge Fusion By Evolving Weights of Language Models [5.354527640064584]
本稿では,複数のモデルを統一モデルに統合するアプローチについて検討する。
本稿では進化的アルゴリズムに触発されたEvolverという知識融合手法を提案する。
論文 参考訳(メタデータ) (2024-06-18T02:12:34Z) - LLM Augmented LLMs: Expanding Capabilities through Composition [56.40953749310957]
CALM -- 言語モデルの拡張のための構成 -- は、モデル間の相互アテンションを導入して、表現を構成し、新しい機能を有効にする。
低リソース言語で訓練されたより小さなモデルでPaLM2-Sを増強すると、英語への翻訳のようなタスクで最大13%の改善が達成される。
PaLM2-Sがコード固有モデルで拡張されると、コード生成や説明タスクのベースモデルよりも40%向上する。
論文 参考訳(メタデータ) (2024-01-04T18:53:01Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Mengzi: Towards Lightweight yet Ingenious Pre-trained Models for Chinese [33.83704598544326]
Mengziは、差別的、生成的、ドメイン固有、およびマルチモーダル事前訓練されたモデルの亜種である。
中国の公共のPLMと比較すると、メンジは単純だがより強力である。
我々の軽量モデルは、広く使われているCLUEベンチマークにおいて、最先端の新たな結果を得た。
論文 参考訳(メタデータ) (2021-10-13T13:14:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。