Fugu-MT 論文翻訳(概要): Collective Model Intelligence Requires Compatible Specialization

論文の概要: Collective Model Intelligence Requires Compatible Specialization

arxiv url: http://arxiv.org/abs/2411.02207v1
Date: Mon, 04 Nov 2024 15:59:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:44.138929
Title: Collective Model Intelligence Requires Compatible Specialization
Title（参考訳）: 集団モデルインテリジェンスは互換性のある特殊化を必要とする
Authors: Jyothish Pari, Samy Jelassi, Pulkit Agrawal,
Abstract要約: モデルが専門化するにつれて、特徴空間構造における類似性が減少し、集合的使用能力の妨げとなることを示す。我々は、互換性のある特殊化と呼ばれるものを通して、集合モデルインテリジェンスを達成するための新しい方向を提案する。
参考スコア（独自算出の注目度）: 29.590052023903457
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this work, we explore the limitations of combining models by averaging intermediate features, referred to as model merging, and propose a new direction for achieving collective model intelligence through what we call compatible specialization. Current methods for model merging, such as parameter and feature averaging, struggle to effectively combine specialized models due to representational divergence during fine-tuning. As models specialize to their individual domains, their internal feature representations become increasingly incompatible, leading to poor performance when attempting to merge them for new tasks. We analyze this phenomenon using centered kernel alignment (CKA) and show that as models specialize, the similarity in their feature space structure diminishes, hindering their capacity for collective use. To address these challenges, we investigate routing-based merging strategies, which offer more flexible methods for combining specialized models by dynamically routing across different layers. This allows us to improve on existing methods by combining features from multiple layers rather than relying on fixed, layer-wise combinations. However, we find that these approaches still face limitations when layers within models are representationally incompatible. Our findings highlight the importance of designing new approaches for model merging that operate on well-defined input and output spaces, similar to how humans communicate through language rather than intermediate neural activations.
Abstract（参考訳）: 本研究では,モデルマージと呼ばれる中間的特徴を平均化することでモデルを組み合わせることの限界について検討し,互換性のある特殊化という手法を用いて,集合モデルインテリジェンスを達成するための新たな方向性を提案する。パラメータや特徴平均化といったモデルマージの現在の手法は、微調整中の表現のばらつきによる特殊モデルを効果的に組み合わせることに苦慮している。モデルが個々のドメインに特化するにつれて、内部の特徴表現は互換性が増し、新しいタスクにマージしようとするとパフォーマンスが低下する。我々は、中心核アライメント(CKA)を用いてこの現象を解析し、モデルが専門化するにつれて、特徴空間構造における類似性が減少し、集合的使用能力の妨げとなることを示す。これらの課題に対処するために、異なる層を動的にルーティングすることで、特別なモデルを組み合わせるためのより柔軟な方法を提供するルーティングベースのマージ戦略について検討する。これにより、固定されたレイヤワイドの組み合わせに頼るのではなく、複数のレイヤの機能を組み合わせることで、既存のメソッドを改善することができます。しかし、モデル内のレイヤが表現的に非互換である場合、これらのアプローチは依然として制限に直面している。本研究は, ニューラルアクティベーションを中間的に行うのではなく, 人間が言語を介してコミュニケーションするのと同じように, 適切に定義された入力空間と出力空間で動作するモデルマージのための新しいアプローチを設計することの重要性を強調した。

関連論文リスト

SE-Merging: A Self-Enhanced Approach for Dynamic Model Merging [60.83635006372403]
textttSE-Mergingは自己拡張型モデルマージフレームワークである。 textttSE-Mergingは、追加のトレーニングなしで動的モデルのマージを実現することを示す。
論文参考訳（メタデータ） (2025-06-22T18:38:41Z)
Multi-Level Collaboration in Model Merging [56.31088116526825]
本稿では,モデルマージとモデルアンサンブルの本質的な関係について考察する。これまでの制限が満たされていない場合でも、モデルのマージによって、アンサンブルと同じような、ほぼ同一かつ優れたパフォーマンスを達成する方法がまだ存在することが分かっています。
論文参考訳（メタデータ） (2025-03-03T07:45:04Z)
Merging Models on the Fly Without Retraining: A Sequential Approach to Scalable Continual Model Merging [75.93960998357812]
ディープモデルマージ(Deep Modelmerging)は、複数の微調整モデルを組み合わせて、さまざまなタスクやドメインにまたがる能力を活用する、新たな研究方向を示すものだ。現在のモデルマージ技術は、全ての利用可能なモデルを同時にマージすることに集中しており、重量行列に基づく手法が主要なアプローチである。本稿では,モデルを逐次処理するトレーニングフリーなプロジェクションベース連続マージ手法を提案する。
論文参考訳（メタデータ） (2025-01-16T13:17:24Z)
Modeling Multi-Task Model Merging as Adaptive Projective Gradient Descent [74.02034188307857]
複数のエキスパートモデルをマージすることは、元のデータにアクセスせずにマルチタスク学習を実行するための有望なアプローチを提供する。既存の手法は必然的にタスク固有の情報を破棄し、競合の原因となっているが、パフォーマンスには不可欠である。我々の手法は従来の手法より一貫して優れており、視覚領域とNLP領域の両方において様々なアーキテクチャやタスクにまたがって最先端の結果が得られます。
論文参考訳（メタデータ） (2025-01-02T12:45:21Z)
Training-free Heterogeneous Model Merging [40.681362819808136]
異種モデル用に設計された革新的なモデルマージフレームワークを提案する。構造的に不均一なモデルのマージは、均質なマージに匹敵する性能レベルを達成することができることを示す。私たちのコードはhttps://github.com/zju-vipa/training_free_heterogeneous_model_mergingで公開されています。
論文参考訳（メタデータ） (2024-12-29T04:49:11Z)
The Non-Local Model Merging Problem: Permutation Symmetries and Variance Collapse [25.002218722102505]
モデルマージは、特定のタスクでトレーニングされた複数のエキスパートモデルの重みを、単一のマルチタスクモデルに効率的に結合することを目的としている。この研究は、"非ローカル"マージのより困難なシナリオを探求する。標準的なマージ技術は、この非局所的な環境で効果的に一般化できないことが多い。本稿では,タスク毎のマージモデルの出力アクティベーションを再スケール・シフトするマルチタスク手法を提案する。
論文参考訳（メタデータ） (2024-10-16T17:41:59Z)
Exploring Model Kinship for Merging Large Language Models [52.01652098827454]
本稿では,大規模言語モデル間の類似性や関連性の程度であるモデル親和性を紹介する。モデル統合後の性能向上とモデル親和性の間には,一定の関係があることが判明した。我々は新しいモデルマージ戦略を提案する。Top-k Greedy Merging with Model Kinship。
論文参考訳（メタデータ） (2024-10-16T14:29:29Z)
Parameter Competition Balancing for Model Merging [13.66727853299506]
PCB-Mergingは、効果的なモデルマージのために各パラメータの係数を調整する訓練不要の手法である。 PCB-Mergingは、複数のモダリティ、ドメイン、モデルサイズ、タスク数、微調整フォーム、および大きな言語モデルにわたる大幅なパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2024-10-03T11:17:58Z)
SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。 SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文参考訳（メタデータ） (2024-08-19T17:32:15Z)
MergeNet: Knowledge Migration across Heterogeneous Models, Tasks, and Modalities [72.68829963458408]
異種モデルのパラメータ空間のギャップを埋めることを学ぶMergeNetを提案する。 MergeNetの中核となるメカニズムはパラメータアダプタにあり、ソースモデルの低ランクパラメータをクエリすることで動作する。 MergeNetは両方のモデルと共に学習され、我々のフレームワークは、現在のステージに関する知識を動的に転送し、適応することができます。
論文参考訳（メタデータ） (2024-04-20T08:34:39Z)
Training-Free Pretrained Model Merging [38.16269074353077]
双対空間制約(MuDSC)の下でのマージという,革新的なモデルマージフレームワークを提案する。ユーザビリティを高めるため,マルチヘッドアテンションやグループ正規化など,グループ構造への適応も取り入れた。
論文参考訳（メタデータ） (2024-03-04T06:19:27Z)
Merging Text Transformer Models from Different Initializations [7.768975909119287]
異なるTransformer minimaが類似した特徴を学習する程度について検討する。損失景観におけるこれらのミニマの関係を調べるためのモデルマージ手法を提案する。以上の結果から,これらのモデルのミニマは従来理解されていたよりもシャープで孤立していないことが明らかとなった。
論文参考訳（メタデータ） (2024-03-01T21:16:29Z)
Concrete Subspace Learning based Interference Elimination for Multi-task Model Fusion [86.6191592951269]
一般的な事前訓練された大規模モデルから微調整されたマージングモデルは、様々なタスクに特化しているが、様々なタスクでうまく機能するマルチタスクモデルを構築するための安価でスケーラブルな戦略として実証されている。本稿では、共通低次元部分空間を同定し、その共有情報トラック干渉問題を性能を犠牲にすることなく利用するための連続緩和(Concrete)部分空間学習法を提案する。
論文参考訳（メタデータ） (2023-12-11T07:24:54Z)
Switchable Representation Learning Framework with Self-compatibility [50.48336074436792]
自己整合性(SFSC)を考慮した交換可能な表現学習フレームワークを提案する。 SFSCは1つのトレーニングプロセスを通じて、異なる能力を持つ一連の互換性のあるサブモデルを生成する。 SFSCは評価データセット上で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2022-06-16T16:46:32Z)
Semantic Correspondence with Transformers [68.37049687360705]
本稿では,変換器を用いたコストアグリゲーション(CAT)を提案し,意味論的に類似した画像間の密接な対応を見出す。初期相関マップと多レベルアグリゲーションを曖昧にするための外観親和性モデリングを含む。提案手法の有効性を示す実験を行い,広範囲にわたるアブレーション研究を行った。
論文参考訳（メタデータ） (2021-06-04T14:39:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。