Fugu-MT 論文翻訳(概要): Rethinking Weight-Averaged Model-merging

論文の概要: Rethinking Weight-Averaged Model-merging

arxiv url: http://arxiv.org/abs/2411.09263v2
Date: Thu, 21 Nov 2024 10:46:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:47.632233
Title: Rethinking Weight-Averaged Model-merging
Title（参考訳）: 重量平均モデルマージの再考
Authors: Hu Wang, Congbo Ma, Ibrahim Almakky, Ian Reid, Gustavo Carneiro, Mohammad Yaqub,
Abstract要約: 重み付きモデルマージはディープラーニングにおいて強力なアプローチとして登場し、微調整や再訓練なしにモデル性能を向上させることができる。本稿では,この手法を3つの新しい視点から検討し,重み付きモデルマージがどのように動作するのか,なぜより深い知見を提供する。私たちの発見は、平均的なモデルマージの"ブラックボックス"に光を当て、貴重な洞察と実践的なレコメンデーションを提供しました。
参考スコア（独自算出の注目度）: 15.2881959315021
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Weight-averaged model-merging has emerged as a powerful approach in deep learning, capable of enhancing model performance without fine-tuning or retraining. However, the underlying mechanisms that explain its effectiveness remain largely unexplored. In this paper, we investigate this technique from three novel perspectives to provide deeper insights into how and why weight-averaged model-merging works: (1) we examine the intrinsic patterns captured by the learning of the model weights, through the visualizations of their patterns on several datasets, showing that these weights often encode structured and interpretable patterns; (2) we investigate model ensemble merging strategies based on averaging on weights versus averaging on features, providing detailed analyses across diverse architectures and datasets; and (3) we explore the impact on model-merging prediction stability in terms of changing the parameter magnitude, revealing insights into the way of weight averaging works as regularization by showing the robustness across different parameter scales. Our findings shed light on the "black box" of weight-averaged model-merging, offering valuable insights and practical recommendations that advance the model-merging process.
Abstract（参考訳）: 重み付きモデルマージはディープラーニングにおいて強力なアプローチとして登場し、微調整や再訓練なしにモデル性能を向上させることができる。しかし、その効果を説明する基盤となるメカニズムはほとんど未解明のままである。本稿では,本手法を3つの新しい視点から検討し,(1)モデル重みの学習によって得られた本質的なパターンを複数のデータセット上で可視化し,それらの重みがしばしば構造的および解釈可能なパターンを符号化すること,(2)モデルアンサンブルのマージ戦略について検討すること,(3)モデルアンサンブルのマージ戦略を多種多様なアーキテクチャやデータセットの詳細な分析を提供すること,(3)パラメータサイズの変化によるモデルマージ予測安定性への影響について考察し,パラメータスケールの整合性を示すことにより,平均値の正当性を示す。私たちの発見は、平均的なモデルマージの“ブラックボックス”に光を当て、モデルマージプロセスを進めるための貴重な洞察と実践的なレコメンデーションを提供しました。

関連論文リスト

Revisiting Model Interpolation for Efficient Reasoning [27.32667995137936]
2つの重みを直接補間する最も単純なマージ法を再検討する。我々は、モデルが推論軌道に異なる振る舞いを持つ3段階の進化パラダイムに従うことを観察する。
論文参考訳（メタデータ） (2025-10-13T03:30:01Z)
Learning Compact Representations of LLM Abilities via Item Response Theory [35.74367665390977]
大規模言語モデル(LLM)のコンパクト表現の学習方法について検討する。この問題は、与えられたモデルが特定のクエリに正しく答える確率を推定するものである。これらのパラメータを共同で学習するために、モデルとクエリレベルの埋め込みを結合するMixture-of-Experts(MoE)ネットワークを導入する。
論文参考訳（メタデータ） (2025-10-01T12:55:34Z)
RoFt-Mol: Benchmarking Robust Fine-Tuning with Molecular Graph Foundation Models [15.62650736139546]
本研究では,8つのファインチューニング手法を,ウェイトベース,表現ベース,部分的なファインチューニングの3つのメカニズムに分類する。各種ラベル設定における教師付きおよび自己教師付き事前学習モデルの下流回帰および分類タスクについて,これらの手法をベンチマークした。この評価は有用な洞察を与え、洗練された頑健な微調整法であるROFT-MOLの設計を通知する。
論文参考訳（メタデータ） (2025-08-30T21:35:57Z)
LeMoRe: Learn More Details for Lightweight Semantic Segmentation [48.81126061219231]
計算効率と表現の忠実さのバランスをとるために、明示的および暗黙的なモデリングを相乗化することによって効率的なパラダイムを導入する。提案手法は、明確にモデル化されたビューと暗黙的に推論された中間表現とをうまく組み合わせ、グローバルな依存関係を効率的に取得する。
論文参考訳（メタデータ） (2025-05-29T04:55:10Z)
Multi-Level Collaboration in Model Merging [56.31088116526825]
本稿では,モデルマージとモデルアンサンブルの本質的な関係について考察する。これまでの制限が満たされていない場合でも、モデルのマージによって、アンサンブルと同じような、ほぼ同一かつ優れたパフォーマンスを達成する方法がまだ存在することが分かっています。
論文参考訳（メタデータ） (2025-03-03T07:45:04Z)
A Collaborative Ensemble Framework for CTR Prediction [73.59868761656317]
我々は、複数の異なるモデルを活用するための新しいフレームワーク、CETNet(Collaborative Ensemble Training Network)を提案する。ナイーブなモデルスケーリングとは違って,私たちのアプローチは,共同学習による多様性とコラボレーションを重視しています。当社のフレームワークは,Metaの3つのパブリックデータセットと大規模産業データセットに基づいて検証する。
論文参考訳（メタデータ） (2024-11-20T20:38:56Z)
Exploring Model Kinship for Merging Large Language Models [52.01652098827454]
本稿では,大規模言語モデル間の類似性や関連性の程度であるモデル親和性を紹介する。モデル統合後の性能向上とモデル親和性の間には,一定の関係があることが判明した。我々は新しいモデルマージ戦略を提案する。Top-k Greedy Merging with Model Kinship。
論文参考訳（メタデータ） (2024-10-16T14:29:29Z)
What Matters for Model Merging at Scale? [94.26607564817786]
モデルマージは、複数の専門家モデルとより有能な単一モデルを組み合わせることを目的としている。これまでの研究は主に、いくつかの小さなモデルをマージすることに焦点を当ててきた。本研究は,大規模モデルマージの有用性を体系的に評価する。
論文参考訳（メタデータ） (2024-10-04T17:17:19Z)
Weight Scope Alignment: A Frustratingly Easy Method for Model Merging [40.080926444789085]
非I.D.データは平均的なモデル融合にとって大きな課題となる。本稿では,異なるトレーニング条件下での重量範囲の変化を明らかにする。幸いなことに、各層のパラメータは基本的にガウス分布に従っており、これは新しく単純な正規化アプローチを刺激している。
論文参考訳（メタデータ） (2024-08-22T09:13:27Z)
Learning-based Models for Vulnerability Detection: An Extensive Study [3.1317409221921144]
我々は、最先端の学習ベースアプローチの2つのタイプを広範かつ包括的に調査する。本稿では,シーケンスベースモデルの優先度と,グラフベースモデルの限定能力について実験的に検証する。
論文参考訳（メタデータ） (2024-08-14T13:01:30Z)
OmniBal: Towards Fast Instruction-Tuning for Vision-Language Models via Omniverse Computation Balance [67.37017498784748]
視覚言語命令チューニングモデルにおける大規模3D並列トレーニングは、異なるデバイス間で不均衡な計算負荷をもたらす。我々は、データ、モデル、メモリの観点から計算負荷を再均衡させ、デバイス間でよりバランスのとれた計算を実現する。提案手法の有効性と一般化性は,様々なモデルやデータセットにまたがってさらに検証される。
論文参考訳（メタデータ） (2024-07-30T12:02:58Z)
EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。 EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文参考訳（メタデータ） (2024-05-23T05:25:45Z)
Has Your Pretrained Model Improved? A Multi-head Posterior Based Approach [25.927323251675386]
我々は、世界的知識の源として各エンティティに関連するメタ機能を活用し、モデルからエンティティ表現を採用する。本稿では,これらの表現とメタ機能との整合性を,事前学習モデルの評価指標として用いることを提案する。提案手法の有効性は,関係データセットを用いたモデル,大規模言語モデル,画像モデルなど,様々な領域で実証されている。
論文参考訳（メタデータ） (2024-01-02T17:08:26Z)
Aggregation Weighting of Federated Learning via Generalization Bound Estimation [65.8630966842025]
フェデレートラーニング(FL)は通常、サンプル比率によって決定される重み付けアプローチを使用して、クライアントモデルパラメータを集約する。上記の重み付け法を,各局所モデルの一般化境界を考慮した新しい戦略に置き換える。
論文参考訳（メタデータ） (2023-11-10T08:50:28Z)
Model Merging by Uncertainty-Based Gradient Matching [70.54580972266096]
ミスマッチを減らすことで性能を改善するための不確実性に基づく新しいスキームを提案する。我々の新しい手法は、大きな言語モデルと視覚変換器に一貫した改善をもたらす。
論文参考訳（メタデータ） (2023-10-19T15:02:45Z)
Revisiting Implicit Models: Sparsity Trade-offs Capability in Weight-tied Model for Vision Tasks [4.872984658007499]
ディープ平衡モデル(Deep Equilibrium Models, DEQ)のような暗黙のモデルは、無限層のモデルを訓練する能力によって、コミュニティにおいて大きな注目を集めている。暗黙のモデルの行を再検討し、それらを元の重み付けモデルに遡る。驚くべきことに、重み付けモデルの方がDECの変種と比較して、より効率的で、安定であり、視覚タスク上でも効率的である。
論文参考訳（メタデータ） (2023-07-16T11:45:35Z)
The Effect of Balancing Methods on Model Behavior in Imbalanced Classification Problems [4.370097023410272]
不均衡なデータは、マイノリティクラスからの学習不足によってモデルのパフォーマンスが影響を受けるため、分類において課題となる。この研究は、バランスをとる方法のより困難な側面、すなわちモデル行動への影響に対処する。これらの変化を捉えるために、説明可能な人工知能ツールは、バランスをとる前後にデータセットでトレーニングされたモデルを比較するために使用される。
論文参考訳（メタデータ） (2023-06-30T22:25:01Z)
Understanding Parameter Sharing in Transformers [53.75988363281843]
トランスフォーマーに関するこれまでの研究は、異なるレイヤでパラメータを共有することに集中しており、モデルの深さを増大させることで、限られたパラメータを持つモデルの性能を向上させることができる。このアプローチの成功は, モデル複雑性の増加により, ごく一部に過ぎず, 収束性の向上に大きく寄与することを示す。 8つの機械翻訳タスクの実験結果から,パラメータ共有モデルのモデル複雑性を半分に抑えて,我々のモデルが競合性能を達成することが示された。
論文参考訳（メタデータ） (2023-06-15T10:48:59Z)
Representer Point Selection for Explaining Regularized High-dimensional Models [105.75758452952357]
本稿では,高次元表現器と呼ぶサンプルベース説明のクラスを紹介する。私たちのワークホースは、一般化された高次元モデルに対する新しい代表者定理である。提案手法の実証的性能について,実世界の2進分類データセットと2つの推薦システムデータセットを用いて検討した。
論文参考訳（メタデータ） (2023-05-31T16:23:58Z)
An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文参考訳（メタデータ） (2023-04-28T15:43:21Z)
Semantic Image Attack for Visual Model Diagnosis [80.36063332820568]
実際には、特定の列車およびテストデータセットに関する計量分析は、信頼性や公正なMLモデルを保証しない。本稿では,セマンティック・イメージ・アタック(SIA)を提案する。
論文参考訳（メタデータ） (2023-03-23T03:13:04Z)
Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文参考訳（メタデータ） (2023-03-13T16:00:31Z)
Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文参考訳（メタデータ） (2022-12-19T20:46:43Z)
Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文参考訳（メタデータ） (2022-11-09T18:58:29Z)
Meta-Ensemble Parameter Learning [35.6391802164328]
本稿では,メタラーニング手法を用いて,単一モデルのパラメータを直接予測できるかどうかを考察する。 WeightFormerは、トランスフォーマーベースのモデルで、フォワードパスの層で生徒のネットワーク重みを予測できる。
論文参考訳（メタデータ） (2022-10-05T00:47:24Z)
Merging Models with Fisher-Weighted Averaging [24.698591753644077]
我々は、複数のモデルを1つに“マージ”するモデル間で知識を伝達する、根本的に異なる方法を紹介します。提案手法は,モデルのパラメータの重み付け平均を効果的に計算する。マージ手順により、これまで探索されていなかった方法でモデルを組み合わせることが可能であることを示す。
論文参考訳（メタデータ） (2021-11-18T17:59:35Z)
Distributional Depth-Based Estimation of Object Articulation Models [21.046351215949525]
本研究では,奥行き画像から直接,調音モデルパラメータの分布を効率よく学習する手法を提案する。私たちのコアコントリビューションには、剛体変換に対する分布の新しい表現が含まれています。本稿では,カテゴリに依存しない調音モデル推定を行う新しい深層学習手法DUST-netを提案する。
論文参考訳（メタデータ） (2021-08-12T17:44:51Z)
Physics-Integrated Variational Autoencoders for Robust and Interpretable Generative Modeling [86.9726984929758]
我々は、不完全物理モデルの深部生成モデルへの統合に焦点を当てる。本稿では,潜在空間の一部が物理によって基底づけられたVAEアーキテクチャを提案する。合成および実世界のデータセットの集合に対して生成的性能改善を示す。
論文参考訳（メタデータ） (2021-02-25T20:28:52Z)
Structured learning of rigid-body dynamics: A survey and unified view from a robotics perspective [5.597839822252915]
剛体力学とデータ駆動モデリング技術を組み合わせた回帰モデルについて検討した。我々は、ニューラルネットワークやガウス過程などのデータ駆動回帰モデルと分析モデル先行モデルの組み合わせに関する統一的な見解を提供する。
論文参考訳（メタデータ） (2020-12-11T11:26:48Z)
Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [54.94763543386523]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文参考訳（メタデータ） (2020-10-25T18:51:15Z)
A Semiparametric Approach to Interpretable Machine Learning [9.87381939016363]
機械学習におけるブラックボックスモデルは、複雑な問題と高次元設定において優れた予測性能を示した。透明性と解釈可能性の欠如は、重要な意思決定プロセスにおけるそのようなモデルの適用性を制限します。半パラメトリック統計学のアイデアを用いて予測モデルにおける解釈可能性と性能のトレードオフを行う新しい手法を提案する。
論文参考訳（メタデータ） (2020-06-08T16:38:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。