論文の概要: Souper-Model: How Simple Arithmetic Unlocks State-of-the-Art LLM Performance
- arxiv url: http://arxiv.org/abs/2511.13254v1
- Date: Mon, 17 Nov 2025 11:13:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:25.15727
- Title: Souper-Model: How Simple Arithmetic Unlocks State-of-the-Art LLM Performance
- Title(参考訳): Souper-Model: 単純な算術的アンロックによる最先端のLLMパフォーマンス
- Authors: Shalini Maiti, Amar Budhiraja, Bhavul Gauri, Gaurav Chaurasia, Anton Protopopov, Alexis Audran-Reiss, Michael Slater, Despoina Magka, Tatiana Shavrina, Roberta Raileanu, Yoram Bachrach,
- Abstract要約: 本稿では,モデルスープの原則的アプローチである Soup Of Category Experts (SoCE) を紹介する。
SoCEは、弱相関カテゴリクラスタごとに「エキスパート」モデルを識別し、最適化された重み付け平均化を用いてそれらを結合する。
提案手法は,複数の領域にまたがる性能とロバスト性の向上を実証する。
- 参考スコア(独自算出の注目度): 15.244354622288226
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable capabilities across diverse domains, but their training remains resource- and time-intensive, requiring massive compute power and careful orchestration of training procedures. Model souping-the practice of averaging weights from multiple models of the same architecture-has emerged as a promising pre- and post-training technique that can enhance performance without expensive retraining. In this paper, we introduce Soup Of Category Experts (SoCE), a principled approach for model souping that utilizes benchmark composition to identify optimal model candidates and applies non-uniform weighted averaging to maximize performance. Contrary to previous uniform-averaging approaches, our method leverages the observation that benchmark categories often exhibit low inter-correlations in model performance. SoCE identifies "expert" models for each weakly-correlated category cluster and combines them using optimized weighted averaging rather than uniform weights. We demonstrate that the proposed method improves performance and robustness across multiple domains, including multilingual capabilities, tool calling, and math and achieves state-of-the-art results on the Berkeley Function Calling Leaderboard.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な領域にまたがる顕著な能力を示しているが、そのトレーニングはリソースと時間集約的であり、膨大な計算能力と訓練手順の慎重なオーケストレーションを必要としている。
モデルスープ-同じアーキテクチャの複数のモデルから平均的な重み付けを行うプラクティスは、高価なリトレーニングなしでパフォーマンスを向上させる、有望な事前および後トレーニング技術として現れました。
本稿では、ベンチマーク合成を用いて最適なモデル候補を特定し、非一様重み付き平均化を適用して性能を最大化するモデルスープの原理的手法であるSoCEを紹介する。
従来の一様手法とは対照的に,本手法は,ベンチマークカテゴリーがモデル性能において相関関係が低い場合が多いという観測を生かしている。
SoCEは、弱相関圏クラスタごとに「エキスパート」モデルを識別し、一様重みではなく最適化された重み付き平均化を用いてそれらを結合する。
提案手法は,多言語機能,ツールコール,数学など,複数の領域にわたる性能と堅牢性を向上し,バークレー関数呼出指導板の最先端結果を達成することを実証する。
関連論文リスト
- Parameter Averaging in Link Prediction [7.914373583039709]
本稿では、知識グラフ埋め込み(KGE)モデルにおいて、モデルマージ、特に重み付け平均化を導入する。
トレーニングエポック以降のモデルパラメータの平均の実行は維持され、予測に使用される。
我々は,これらの2つの重み付き平均化手法をリンク予測タスクで評価し,最先端のベンチマークアンサンブル手法と比較した。
論文 参考訳(メタデータ) (2025-10-29T10:32:39Z) - Training Matryoshka Mixture-of-Experts for Elastic Inference-Time Expert Utilization [60.309915093470416]
Matryoshka MoE(M-MoE)は、エキスパートアンサンブルに直接粗い構造を注入するトレーニングフレームワークである。
私たちの作業は、大規模MOEモデルのより実用的で適応可能なデプロイメントの道を開くものです。
論文 参考訳(メタデータ) (2025-09-30T16:56:44Z) - SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。
トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文 参考訳(メタデータ) (2025-08-07T03:50:48Z) - Combining Pre-Trained Models for Enhanced Feature Representation in Reinforcement Learning [16.04558746520946]
強化学習(Reinforcement Learning, RL)は、エージェントと環境との相互作用を通じて得られる累積報酬の最大化に焦点を当てている。
我々は、複数の事前学習モデルの埋め込みを組み合わせ、リッチな状態表現を形成する新しいアーキテクチャである、Weight Sharing Attention (WSA)を提案する。
論文 参考訳(メタデータ) (2025-07-09T18:13:52Z) - Relative Overfitting and Accept-Reject Framework [5.465098504510676]
本稿では,性能向上のためにモデルをセグメント化する方法を管理するアンサンブルフレームワークを提案する。
NLPの領域におけるこのフレームワークのパターンを詳述し、コンピュータビジョン(CV)や科学のためのAIなど他の分野に簡単に説明します。
論文 参考訳(メタデータ) (2025-05-12T17:36:14Z) - DeepInsert: Early Layer Bypass for Efficient and Performant Multimodal Understanding [26.39397960987363]
本稿では,事前学習したトランスモデルに対する簡単な修正を提案する。
まず最初に言語プロンプトと結合するのではなく、マルチモーダルトークンを直接中央に挿入します。
その結果,本手法は,学習と推論の双方において計算コストを削減できることが示唆された。
論文 参考訳(メタデータ) (2025-04-27T18:56:26Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - Majority Kernels: An Approach to Leverage Big Model Dynamics for Efficient Small Model Training [32.154166415680066]
蒸留、圧縮、量子化といった手法は、高性能な大きなモデルを利用してより小さな性能のモデルを誘導するのに役立つ。
本稿では、単一トレーニングランが同時に、より大きなパフォーマンスモデルをトレーニングし、より小さなデプロイメントモデルを導出できるという仮説を考察する。
論文 参考訳(メタデータ) (2024-02-07T17:07:41Z) - One-stop Training of Multiple Capacity Models [74.87789190840527]
本稿では,高容量・低容量モデルとの共同学習のためのワンストップトレーニングフレームワークを提案する。
複数のキャパシティモデルをスクラッチから個別に訓練する知識蒸留とは異なり、我々の手法は異なるキャパシティモデルからの監督を同時に統合する。
論文 参考訳(メタデータ) (2023-05-23T13:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。