Fugu-MT 論文翻訳(概要): EvoMerge: Neuroevolution for Large Language Models

論文の概要: EvoMerge: Neuroevolution for Large Language Models

arxiv url: http://arxiv.org/abs/2402.00070v1
Date: Tue, 30 Jan 2024 19:37:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-02 18:03:01.482635
Title: EvoMerge: Neuroevolution for Large Language Models
Title（参考訳）: EvoMerge: 大規模言語モデルのための神経進化
Authors: Yushu Jiang
Abstract要約: EvoMergeは、大規模言語モデルのトレーニングとマージに対する体系的なアプローチである。重みの交叉にモデルマージ、重みの突然変異に微調整を用いる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Extensive fine-tuning on Large Language Models does not always yield better results. Oftentimes, models tend to get better at imitating one form of data without gaining greater reasoning ability and may even end up losing some intelligence. Here I introduce EvoMerge, a systematic approach to large language model training and merging. Leveraging model merging for weight crossover and fine-tuning for weight mutation, EvoMerge establishes an evolutionary process aimed at pushing models beyond the limits of conventional fine-tuning.
Abstract（参考訳）: 大規模言語モデルの大規模な微調整は、必ずしもより良い結果をもたらすとは限らない。多くの場合、モデルは推論能力を得ることなく、ある形式のデータを模倣するのが良くなり、最終的には知性を失う。ここでは,大規模言語モデルのトレーニングとマージのための体系的アプローチであるevomergeを紹介する。 EvoMergeは、ウェイトクロスオーバーと微調整のモデルマージを活用し、従来の微調整の限界を超えてモデルを推し進めることを目的とした進化過程を確立した。

関連論文リスト

Competition and Attraction Improve Model Fusion [17.83054848742515]
モデルマージは、複数の機械学習モデルの専門知識を単一のモデルに統合するための強力なテクニックである。本稿では3つの重要な特徴を持つ進化的アルゴリズムである自然ニッチのモデルマージング(M2N2)を提案する。 M2N2は、特殊言語と画像生成モデルをマージし、最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-08-22T08:24:02Z)
Forecasting Open-Weight AI Model Growth on HuggingFace [46.348283638884425]
科学文献における引用力学と平行して構築する手法として,オープンウェイトモデルの影響を定量的に評価する枠組みを提案する。オープンウェイトモデルの細調整モデルの累積数を追跡するために,Wangらによって導入された3つの重要なパラメータ-即時性,長寿命性,相対的適合性を用いて,科学的引用に適応する。提案手法は,オープンウェイトモデル導入の多様な軌跡を効果的に捉えることが可能であり,ほとんどのモデルでは,ユニークなパターンや急激な使用感を示すアウトリーチが適している。
論文参考訳（メタデータ） (2025-02-21T22:52:19Z)
Exploring Model Kinship for Merging Large Language Models [52.01652098827454]
本稿では,大規模言語モデル間の類似性や関連性の程度であるモデル親和性を紹介する。モデル統合後の性能向上とモデル親和性の間には,一定の関係があることが判明した。我々は新しいモデルマージ戦略を提案する。Top-k Greedy Merging with Model Kinship。
論文参考訳（メタデータ） (2024-10-16T14:29:29Z)
Scaling Smart: Accelerating Large Language Model Pre-training with Small Model Initialization [22.90653167145603]
本稿では,事前学習した言語モデルのパラメータを,隠れ次元が増大する大規模モデルのパラメータに拡張する手法であるHyperCloningを紹介する。結果として、より大きなモデルは、トレーニングを開始する前に、より小さなモデルの予測能力と精度をすでに継承している。
論文参考訳（メタデータ） (2024-09-19T16:50:26Z)
Knowledge Fusion By Evolving Weights of Language Models [5.354527640064584]
本稿では,複数のモデルを統一モデルに統合するアプローチについて検討する。本稿では進化的アルゴリズムに触発されたEvolverという知識融合手法を提案する。
論文参考訳（メタデータ） (2024-06-18T02:12:34Z)
LLM Guided Evolution - The Automation of Models Advancing Models [0.0]
ガイドド・エボリューション(GE)は、従来の機械学習アプローチから切り離された斬新なフレームワークである。思想の進化(EoT)は、従来の突然変異の結果からLLMを反映して学習させることでGEを強化する。 ExquisiteNetV2モデルの進化におけるGEの適用は,その有効性を示している。
論文参考訳（メタデータ） (2024-03-18T03:44:55Z)
eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文参考訳（メタデータ） (2023-03-20T19:20:34Z)
Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文参考訳（メタデータ） (2023-03-13T16:00:31Z)
Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。異なるサイズの言語モデルは事前学習中にどのように学習するか? より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文参考訳（メタデータ） (2022-12-19T19:16:29Z)
Emergent Abilities of Large Language Models [172.08007363384218]
より小さなモデルには存在しないが、より大きなモデルには存在しない場合、創発する能力を考える。このような出現の存在は、さらなるスケーリングが言語モデルの機能範囲をさらに拡大することを意味している。
論文参考訳（メタデータ） (2022-06-15T17:32:01Z)
When Ensembling Smaller Models is More Efficient than Single Large Models [52.38997176317532]
アンサンブルは高い精度で単一モデルより優れており、計算に要する総FLOPは少ない。これは、アンサンブルの出力の多様性がより大きなモデルを訓練するよりも効率的であることを示す興味深い観察結果である。
論文参考訳（メタデータ） (2020-05-01T18:56:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。