論文の概要: SeMe: Training-Free Language Model Merging via Semantic Alignment
- arxiv url: http://arxiv.org/abs/2505.20144v1
- Date: Mon, 26 May 2025 15:45:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.579736
- Title: SeMe: Training-Free Language Model Merging via Semantic Alignment
- Title(参考訳): SeMe: セマンティックアライメントによるトレーニングフリー言語モデルマージ
- Authors: Jian Gu, Aldeida Aleti, Chunyang Chen, Hongyu Zhang,
- Abstract要約: SeMeは、遅延セマンティックアライメントを利用して、粒度の細かい層レベルでLMをマージする、新しくて、データフリーで、トレーニング不要なアプローチである。
SeMeは、外部データへの依存を排除しつつ、パフォーマンスと効率の両方で既存のメソッドよりも優れていることを実証する。
我々の研究は知識を意識したモデル統合のための新しいパラダイムを確立し、よりスケーラブルで解釈可能なモデル構成への道を開いた。
- 参考スコア(独自算出の注目度): 32.178931149612644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the remarkable capabilities of Language Models (LMs) across diverse tasks, no single model consistently outperforms others, necessitating efficient methods to combine their strengths without expensive retraining. Existing model merging techniques, such as parameter averaging and task-guided fusion, often rely on data-dependent computations or fail to preserve internal knowledge, limiting their robustness and scalability. We introduce SeMe (Semantic-based Merging), a novel, data-free, and training-free approach that leverages latent semantic alignment to merge LMs at a fine-grained, layer-wise level. Unlike prior work, SeMe not only preserves model behaviors but also explicitly stabilizes internal knowledge, addressing a critical gap in LM fusion. Through extensive experiments across diverse architectures and tasks, we demonstrate that SeMe outperforms existing methods in both performance and efficiency while eliminating reliance on external data. Our work establishes a new paradigm for knowledge-aware model merging and provides insights into the semantic structure of LMs, paving the way for more scalable and interpretable model composition.
- Abstract(参考訳): 様々なタスクにまたがる言語モデル(LM)の目覚ましい能力にもかかわらず、単一のモデルは一貫して他よりも優れており、高価なリトレーニングなしでその強みを結合する効率的な方法を必要とします。
パラメータ平均化(英語版)やタスク誘導融合(英語版)のような既存のモデル統合技術は、しばしばデータ依存の計算に依存するか、内部知識の保存に失敗し、その堅牢性とスケーラビリティを制限している。
SeMe(Semantic-based Merging、セマンティック・ベース・マージング)は、セマンティック・セマンティック・アライメントを活用する新しい、データフリーで、トレーニング不要なアプローチである。
従来の作業とは異なり、SeMeはモデル動作を保存するだけでなく、内部知識を明示的に安定化し、LM融合における重要なギャップに対処する。
さまざまなアーキテクチャやタスクにわたる広範な実験を通じて、SeMeは、外部データへの依存を排除しつつ、パフォーマンスと効率の両方で既存のメソッドよりも優れています。
我々の研究は、知識を意識したモデル統合のための新しいパラダイムを確立し、LMのセマンティック構造に関する洞察を提供し、よりスケーラブルで解釈可能なモデル構成への道を開く。
関連論文リスト
- MergeBench: A Benchmark for Merging Domain-Specialized LLMs [19.49737955489798]
モデルマージを大規模に評価するための総合評価スイートであるMergeBenchを紹介する。
MergeBenchは、2Bから9BスケールのLlamaやGemmaファミリなど、最先端のオープンソース言語モデルを構築している。
マルチタスク性能, 忘れられたこと, 実行効率にまたがる8つの代表的なマージ手法を評価した。
論文 参考訳(メタデータ) (2025-05-16T04:02:55Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - Enhancing Semantic Consistency of Large Language Models through Model Editing: An Interpretability-Oriented Approach [28.07366458452159]
大規模言語モデル(LLM)は、等価な意味を持つプロンプトが提示されるが、元のプロンプトとは異なる形で表現されるとき、矛盾する出力を生成する。
LLMのセマンティック一貫性を達成するために、重要なアプローチの1つは、セマンティックに等価な意味を持つプロンプトとアウトプットのペアでモデルを微調整することである。
LLMのセマンティック一貫性を高めるために,より解釈可能な手法(モデル編集)を提案する。
論文 参考訳(メタデータ) (2025-01-19T13:26:15Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - Model Merging and Safety Alignment: One Bad Model Spoils the Bunch [70.614652904151]
LLM(Merging Large Language Models)は、複数の専門家のLLMを1つの汎用モデルに結合するコスト効率のよい手法である。
現在のアプローチでは、マージ時の安全性の整合性の重要性を見落とし、非常に不整合のモデルに繋がることが多い。
我々は,既存の手法がドメインの専門知識を伝達するだけでなく,ミスアライメントを伝播することを示すために,いくつかの一般的なモデルマージ手法を評価した。
論文 参考訳(メタデータ) (2024-06-20T17:59:58Z) - Towards Stable Machine Learning Model Retraining via Slowly Varying Sequences [6.067007470552307]
そこで本研究では,リトレーニングを繰り返して安定なモデル列を見つけるためのモデルに依存しないフレームワークを提案する。
最適モデルの復元が保証される混合整数最適化の定式化を開発する。
平均的に、予測力の2%の低下は、安定性の30%の改善につながることが判明した。
論文 参考訳(メタデータ) (2024-03-28T22:45:38Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。