Fugu-MT 論文翻訳(概要): MERGE$^3$: Efficient Evolutionary Merging on Consumer-grade GPUs

論文の概要: MERGE$^3$: Efficient Evolutionary Merging on Consumer-grade GPUs

arxiv url: http://arxiv.org/abs/2502.10436v4
Date: Fri, 09 May 2025 08:38:05 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-12 14:47:46.923783
Title: MERGE$^3$: Efficient Evolutionary Merging on Consumer-grade GPUs
Title（参考訳）: MERGE$^3$: コンシューマグレードGPUの効率的な進化的マージ
Authors: Tommaso Mencattini, Adrian Robert Minut, Donato Crisostomi, Andrea Santilli, Emanuele Rodolà,
Abstract要約: MERGE$3$は、単一のGPU上での進化的マージを可能にする効率的なフレームワークである。 MerGE$3$は、評価のためのデータセットの削減、アイテム応答理論(IRT)を用いたモデル能力の推定、IRTベースのパフォーマンス推定器による最適なマージの進化によってこれを達成します。提案手法は,言語間の知識を変換し,計算オーバーヘッドを大幅に低減した,最先端の多言語・多言語統合を実現する。
参考スコア（独自算出の注目度）: 14.791853860278914
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Evolutionary model merging enables the creation of high-performing multi-task models but remains computationally prohibitive for consumer hardware. We introduce MERGE$^3$, an efficient framework that makes evolutionary merging feasible on a single GPU by reducing fitness computation costs 50$\times$ while preserving performance. MERGE$^3$ achieves this by Extracting a reduced dataset for evaluation, Estimating model abilities using Item Response Theory (IRT), and Evolving optimal merges via IRT-based performance estimators. Our method enables state-of-the-art multilingual and cross-lingual merging, transferring knowledge across languages with significantly lower computational overhead. We provide theoretical guarantees and an open-source library, democratizing high-quality model merging.
Abstract（参考訳）: 進化的モデルの統合は、高性能なマルチタスクモデルの作成を可能にするが、消費者ハードウェアでは計算的に禁止されている。 MERGE$^3$は、1つのGPU上での進化的マージを実現するための効率的なフレームワークであり、性能を保ちながら、フィットネス計算コストを50$\times$に抑える。 MERGE$^3$は、評価のためのデータセットの削減、アイテム応答理論(IRT)を用いたモデル能力の推定、IRTベースのパフォーマンス推定器による最適なマージの進化によってこれを達成します。提案手法は,言語間の知識を変換し,計算オーバーヘッドを大幅に低減した,最先端の多言語・多言語統合を実現する。理論的な保証とオープンソースライブラリを提供し、高品質なモデル統合を民主化します。

関連論文リスト

Evolution Strategies at the Hyperscale [57.75314521465674]
本稿では,大集団にバックプロップフリーな最適化を拡大するための進化戦略(ES)アルゴリズムEGGROLLを紹介する。 ESは、微分不可能またはノイズの多い目的を処理できる強力なブラックボックス最適化手法のセットである。 EGGROLLはランダム行列を$Ain mathbbRmtimes r, Bin mathbbRntimes r$ with $rll min(m,n)$ とすることでこれらのボトルネックを克服し、低ランク行列摂動を$A Btop$とする。
論文参考訳（メタデータ） (2025-11-20T18:56:05Z)
irace-evo: Automatic Algorithm Configuration Extended With LLM-Based Code Evolution [1.1313571663082607]
irace-evoは、大きな言語モデル(LLM)を通じてコード進化を統合するiraceの拡張である可変サイズバンドル問題(VSBPP)に対するCMSAメタヒューリスティックによるirace-evoの評価を行った。
論文参考訳（メタデータ） (2025-11-15T12:42:18Z)
SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文参考訳（メタデータ） (2025-08-07T03:50:48Z)
Assessing Small Language Models for Code Generation: An Empirical Study with Benchmarks [4.448709087838503]
小型言語モデル(SLM)は、大規模言語モデル(LLM)の軽量で費用対効果の高い代替手段を提供する。本研究では,5つのコード関連ベンチマークにおいて,0.4Bから10Bまでの20個のオープンソースSLMの総合的評価を行った。
論文参考訳（メタデータ） (2025-07-03T20:32:36Z)
Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging [103.98582374569789]
モデルマージは、複数のエキスパートモデルを単一のモデルにまとめることを目的としており、ストレージとサービスコストを削減している。これまでの研究は主に、コードと数学のタスクに視覚分類モデルやLLM(Large Language Models)を統合することに焦点を当ててきた。本稿では,VQA,Geometry,Chart,OCR,Gundingといった複数のタスクを含むMLLMのモデルマージベンチマークを紹介する。
論文参考訳（メタデータ） (2025-05-26T12:23:14Z)
Mergenetic: a Simple Evolutionary Model Merging Library [14.791853860278914]
進化モデルマージのためのオープンソースライブラリであるMergeneticを紹介する。我々は,メルジェネティックが,控えめなハードウェアを用いてタスクや言語間で競合する結果をもたらすことを示す。
論文参考訳（メタデータ） (2025-05-16T16:43:23Z)
Reviving Any-Subset Autoregressive Models with Principled Parallel Sampling and Speculative Decoding [55.2480439325792]
任意の順序言語モデルでは、正しい関節分布からトークンを並列にサンプリングする方法がオープンな問題である。我々は,任意のサブセット自動回帰モデル (AS-ARM) という,異なるモデルのクラスが解を持っていることを発見した。我々は,AS-ARMがベンチマークタスクを埋め込んだ200M未満のパラメータモデル間で最先端の性能を実現し,コード生成における50倍のモデルの性能とほぼ一致していることを示す。
論文参考訳（メタデータ） (2025-04-29T06:33:13Z)
Reinforced Model Merging [53.84354455400038]
本稿では,タスク統合に適した環境とエージェントを含むRMM(Reinforced Model Merging)という,革新的なフレームワークを提案する。評価プロセス中にデータサブセットを利用することで、報酬フィードバックフェーズのボトルネックに対処し、RMMを最大100倍高速化する。
論文参考訳（メタデータ） (2025-03-27T08:52:41Z)
Mixup Model Merge: Enhancing Model Merging Performance through Randomized Linear Interpolation [15.47711837051754]
Mixup Model Mergeは、Mixupデータ拡張技術にインスパイアされた革新的なアプローチである。 M$3$は、マージされたモデルの性能を大幅に向上させる、単純だが効果的なモデルマージ手法である。
論文参考訳（メタデータ） (2025-02-21T13:01:26Z)
Merging in a Bottle: Differentiable Adaptive Merging (DAM) and the Path from Averaging to Automation [0.9084344604313794]
本稿では,モデルマージ手法を複雑度の範囲にわたって検討する。本稿では,効率よく適応的なマージ手法である微分適応マージ(DAM)を導入する。以上の結果から,モデル類似度が高い場合,モデルソープのような単純な平均化手法でさえ競争力を発揮することが明らかとなった。
論文参考訳（メタデータ） (2024-10-10T20:58:29Z)
Rational Metareasoning for Large Language Models [5.5539136805232205]
大きな言語モデル(LLM)を使用するためのコアテクニックとして,推論への関与を促す声が上がっている。本研究は,認知科学で用いられるメタレゾニングの計算モデルに基づく新しいアプローチを導入する。我々は不必要な推論を罰することで計算の価値を組み込む報酬関数を開発する。
論文参考訳（メタデータ） (2024-10-07T23:48:52Z)
Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。 Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文参考訳（メタデータ） (2024-07-04T15:14:17Z)
Cheaply Evaluating Inference Efficiency Metrics for Autoregressive Transformer APIs [66.30706841821123]
大規模言語モデル(LLM)は、自然言語処理において多くの最先端システムに電力を供給する。 LLMは、推論時でさえ非常に計算コストが高い。モデル間での推論効率を比較するための新しい指標を提案する。
論文参考訳（メタデータ） (2023-05-03T21:51:42Z)
Energy-efficient Task Adaptation for NLP Edge Inference Leveraging Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文参考訳（メタデータ） (2023-03-25T14:40:59Z)
Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文参考訳（メタデータ） (2021-09-09T03:48:35Z)
A Tensor Compiler for Unified Machine Learning Prediction Serving [8.362773007171118]
企業における機械学習(ML)の採用には、よりシンプルで効率的なソフトウェアインフラが必要である。モデルのスコアリングは、モデルが一度訓練されるが、何度も使用されるため、インフラストラクチャの複雑さとコストに主要な貢献をする。本稿では,HUMMINGBIRDを提案する。HUMMINGBIRDは,計算演算子と従来のMLモデルを小さなテンソル演算系にコンパイルする新しいモデルスコアリング手法である。
論文参考訳（メタデータ） (2020-10-09T21:02:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。