Fugu-MT 論文翻訳(概要): Evolutionary Optimization of Model Merging Recipes

論文の概要: Evolutionary Optimization of Model Merging Recipes

arxiv url: http://arxiv.org/abs/2403.13187v1
Date: Tue, 19 Mar 2024 22:56:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-21 18:37:24.117329
Title: Evolutionary Optimization of Model Merging Recipes
Title（参考訳）: モデルマージレシピの進化的最適化
Authors: Takuya Akiba, Makoto Shing, Yujin Tang, Qi Sun, David Ha,
Abstract要約: 本稿では、強力な基礎モデルの作成を自動化するための進化的アルゴリズムの新たな応用について述べる。本稿では,様々なオープンソースモデルの効果的な組み合わせを自動的に発見することで,制限を克服する進化的アプローチを提案する。この研究は、新しい最先端のモデルをオープンソースコミュニティに提供し、また、自動化されたモデル構成のための新しいパラダイムも導入している。
参考スコア（独自算出の注目度）: 21.41838972039297
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present a novel application of evolutionary algorithms to automate the creation of powerful foundation models. While model merging has emerged as a promising approach for LLM development due to its cost-effectiveness, it currently relies on human intuition and domain knowledge, limiting its potential. Here, we propose an evolutionary approach that overcomes this limitation by automatically discovering effective combinations of diverse open-source models, harnessing their collective intelligence without requiring extensive additional training data or compute. Our approach operates in both parameter space and data flow space, allowing for optimization beyond just the weights of the individual models. This approach even facilitates cross-domain merging, generating models like a Japanese LLM with Math reasoning capabilities. Surprisingly, our Japanese Math LLM achieved state-of-the-art performance on a variety of established Japanese LLM benchmarks, even surpassing models with significantly more parameters, despite not being explicitly trained for such tasks. Furthermore, a culturally-aware Japanese VLM generated through our approach demonstrates its effectiveness in describing Japanese culture-specific content, outperforming previous Japanese VLMs. This work not only contributes new state-of-the-art models back to the open-source community, but also introduces a new paradigm for automated model composition, paving the way for exploring alternative, efficient approaches to foundation model development.
Abstract（参考訳）: 本稿では、強力な基礎モデルの作成を自動化するための進化的アルゴリズムの新たな応用について述べる。モデルマージは、LLM開発においてコスト効率のために有望なアプローチとして現れてきたが、現在は人間の直観とドメイン知識に依存しており、その可能性を制限する。本稿では、多様なオープンソースモデルの効果的な組み合わせを自動的に発見し、大規模なトレーニングデータや計算を必要とせず、その集合的知性を活用することにより、この制限を克服する進化的アプローチを提案する。我々の手法はパラメータ空間とデータフロー空間の両方で動作し、個々のモデルの重み以上の最適化を可能にする。このアプローチはドメイン間のマージを容易にし、Math推論機能を備えた日本のLLMのようなモデルを生成する。驚くべきことに、我々の日本語数学 LLM は、これらのタスクを明示的に訓練されていないにもかかわらず、パラメータがかなり多いモデルよりもはるかに多く、様々な確立された日本語 LLM ベンチマークで最先端のパフォーマンスを達成した。さらに,本手法により得られた文化に配慮したVLMは,従来のVLMよりも優れた日本文化特化コンテンツを記述する上で,その効果を実証する。この作業は、新しい最先端のモデルをオープンソースコミュニティに還元するだけでなく、自動化されたモデル構成のための新しいパラダイムを導入し、基盤モデル開発への代替的で効率的なアプローチを探求する道を開いた。

関連論文リスト

Multiagent Finetuning: Self Improvement with Diverse Reasoning Chains [114.76612918465948]
大規模言語モデル(LLM)は近年顕著なパフォーマンスを達成しているが、基礎となるトレーニングデータによって根本的に制限されている。本稿では,言語モデルのマルチエージェント社会にファインタニングを適用した自己改善への補完的アプローチを提案する。
論文参考訳（メタデータ） (2025-01-10T04:35:46Z)
Can Large Language Models Invent Algorithms to Improve Themselves? [3.6117068575553595]
大規模言語モデル(LLM)は、顕著なパフォーマンス向上を示し、業界で急速に採用されている。 LLMが自律的にモデル改善アルゴリズムを生成・学習することを可能にするセルフ開発フレームワークを提案する。数学的推論タスクでは、Self-Developingはシードモデルを超えたモデルを生成するだけでなく、人間が設計したアルゴリズムで作成したモデルよりも一貫して優れている。
論文参考訳（メタデータ） (2024-10-21T04:57:09Z)
Exploring Model Kinship for Merging Large Language Models [52.01652098827454]
本稿では,大規模言語モデル間の類似性や関連性の程度であるモデル親和性を紹介する。モデル統合後の性能向上とモデル親和性の間には,一定の関係があることが判明した。我々は新しいモデルマージ戦略を提案する。Top-k Greedy Merging with Model Kinship。
論文参考訳（メタデータ） (2024-10-16T14:29:29Z)
Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。 Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文参考訳（メタデータ） (2024-07-04T15:14:17Z)
Knowledge Fusion By Evolving Weights of Language Models [5.354527640064584]
本稿では,複数のモデルを統一モデルに統合するアプローチについて検討する。本稿では進化的アルゴリズムに触発されたEvolverという知識融合手法を提案する。
論文参考訳（メタデータ） (2024-06-18T02:12:34Z)
Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-05-29T17:59:07Z)
ORLM: A Customizable Framework in Training Large Models for Automated Optimization Modeling [15.673219028826173]
本稿では,OR-Instruct という,最適化モデル問題のための半自動データ合成フレームワークを提案する。我々は、70億のパラメータ(ORLM)を持つ様々なオープンソースのLDMを訓練する。結果として得られたモデルは、NL4OPT、MAMO、IndustrialORベンチマークにまたがって最先端のパフォーマンスを達成し、大幅な最適化モデリング能力を示す。
論文参考訳（メタデータ） (2024-05-28T01:55:35Z)
LLM Augmented LLMs: Expanding Capabilities through Composition [56.40953749310957]
CALM -- 言語モデルの拡張のための構成 -- は、モデル間の相互アテンションを導入して、表現を構成し、新しい機能を有効にする。低リソース言語で訓練されたより小さなモデルでPaLM2-Sを増強すると、英語への翻訳のようなタスクで最大13%の改善が達成される。 PaLM2-Sがコード固有モデルで拡張されると、コード生成や説明タスクのベースモデルよりも40%向上する。
論文参考訳（メタデータ） (2024-01-04T18:53:01Z)
Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。 SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文参考訳（メタデータ） (2024-01-02T18:53:13Z)
Lightweight reranking for language model generations [26.942659041383596]
本稿では,Large Language Models (LLM) 世代を再評価するための新しいアプローチを提案する。追加の推論や特殊リランカの訓練を含む他の手法とは異なり、我々の手法はペアワイズ統計の計算が容易である。コード生成タスクで最高のk世代を選択するための強力な改善と、オートフォーマライズ、要約、翻訳のタスクで最高の世代で堅牢な改善を示す。
論文参考訳（メタデータ） (2023-07-11T17:51:48Z)
Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文参考訳（メタデータ） (2023-03-13T16:00:31Z)
Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文参考訳（メタデータ） (2022-12-19T20:46:43Z)
Mengzi: Towards Lightweight yet Ingenious Pre-trained Models for Chinese [33.83704598544326]
Mengziは、差別的、生成的、ドメイン固有、およびマルチモーダル事前訓練されたモデルの亜種である。中国の公共のPLMと比較すると、メンジは単純だがより強力である。我々の軽量モデルは、広く使われているCLUEベンチマークにおいて、最先端の新たな結果を得た。
論文参考訳（メタデータ） (2021-10-13T13:14:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。