論文の概要: Ability Transfer and Recovery via Modularized Parameters Localization
- arxiv url: http://arxiv.org/abs/2601.09398v1
- Date: Wed, 14 Jan 2026 11:42:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.382887
- Title: Ability Transfer and Recovery via Modularized Parameters Localization
- Title(参考訳): モジュール化パラメータローカライゼーションによる能力伝達と回復
- Authors: Songyao Jin, Kun Zhou, Wenqi Li, Peng Wang, Biwei Huang,
- Abstract要約: 大規模な言語モデルは、特定のドメイン、言語、またはスキルのパフォーマンスを改善するために、継続的に事前訓練または微調整することができる。
本稿では,アクティベーションの違いによって能力関連チャネルをローカライズし,対応するパラメータのみを選択的に転送するACTを提案する。
- 参考スコア(独自算出の注目度): 35.06445666199432
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models can be continually pre-trained or fine-tuned to improve performance in specific domains, languages, or skills, but this specialization often degrades other capabilities and may cause catastrophic forgetting. We investigate how abilities are distributed within LLM parameters by analyzing module activations under domain- and language-specific inputs for closely related models. Across layers and modules, we find that ability-related activations are highly concentrated in a small set of channels (typically <5\%), and these channels are largely disentangled with good sufficiency and stability. Building on these observations, we propose ACT (Activation-Guided Channel-wise Ability Transfer), which localizes ability-relevant channels via activation differences and selectively transfers only the corresponding parameters, followed by lightweight fine-tuning for compatibility. Experiments on multilingual mathematical and scientific reasoning show that ACT can recover forgotten abilities while preserving retained skills. It can also merge multiple specialized models to integrate several abilities into a single model with minimal interference. Our code and data will be publicly released.
- Abstract(参考訳): 大規模な言語モデルは、特定のドメイン、言語、またはスキルのパフォーマンスを改善するために、継続的に事前訓練または微調整が可能であるが、この特殊化は、しばしば他の能力を低下させ、破滅的な忘れを引き起こす可能性がある。
本研究では,LLMパラメータ内での能力分布について,ドメインおよび言語固有の入力のモジュールアクティベーションを解析することにより検討する。
層やモジュール全体にわたって、能力に関連した活性化は、小さなチャネル(典型的には<5\%)に非常に集中しており、これらのチャネルは、良好な充足性と安定性でほとんど絡み合っていない。
これらの観測に基づいて,アクティベーション・ガイド付きチャネルワイド・アビリティ・トランスファー (ACT) を提案し,アクティベーションの差による能力関連チャネルのローカライズを行い,対応するパラメータのみを選択的に転送する。
多言語数学的および科学的推論の実験は、ACTが保持されたスキルを維持しながら忘れられた能力を取り戻すことができることを示している。
また、複数の特殊なモデルをマージして、最小限の干渉で複数の能力を単一のモデルに統合することもできる。
コードとデータは公開されます。
関連論文リスト
- SCALPEL: Selective Capability Ablation via Low-rank Parameter Editing for Large Language Model Interpretability Analysis [5.684482188223278]
大規模言語モデルは多様なドメインにまたがって優れているが、その内部メカニズムの理解が不十分なため、ハイテイクシステムへの展開は制限されている。
独立モジュールではなく低ランクサブスペースとして機能を表現するフレームワークであるSCALPELを提案する。
一般的な言語モデリングの品質を維持しながら、正解と誤解の区別を減らすためにLoRAをトレーニングすることにより、SCALPELは、他と切り離されたまま、特定の機能に責任を負う低ランクの表現を識別する。
論文 参考訳(メタデータ) (2026-01-12T10:54:18Z) - The Unreasonable Effectiveness of Model Merging for Cross-Lingual Transfer in LLMs [45.08958917457921]
大規模言語モデル(LLM)は、ハイソース言語以外のタスクで依然として苦戦している。
本研究では,タスク固有のポストトレーニングデータが不足している低リソース言語への言語間移動について検討する。
論文 参考訳(メタデータ) (2025-05-23T20:28:31Z) - Optimize Incompatible Parameters through Compatibility-aware Knowledge Integration [104.52015641099828]
既存の研究は、そのようなパラメータを除去したり、複数の異なる事前訓練されたモデルの出力をマージすることに長けている。
本稿では,Deep AssessmentとDeep SplicingからなるCompatibility-Aware Knowledge Integration (CKI)を提案する。
統合モデルは推論やさらなる微調整に直接使用することができる。
論文 参考訳(メタデータ) (2025-01-10T01:42:43Z) - Efficient Transfer Learning for Video-language Foundation Models [13.166348605993292]
テキスト表現と視覚表現のアライメントを高めるために,パラメータ効率のよいマルチモーダルパティッシャ・テンポラル・アダプタ (MSTA) を提案する。
我々は,ゼロショット転送,少数ショット学習,ベース・ツー・ノーベル一般化,完全テンポラル学習という4つの課題にまたがるアプローチの有効性を評価する。
論文 参考訳(メタデータ) (2024-11-18T01:25:58Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - LLM Augmented LLMs: Expanding Capabilities through Composition [56.40953749310957]
CALM -- 言語モデルの拡張のための構成 -- は、モデル間の相互アテンションを導入して、表現を構成し、新しい機能を有効にする。
低リソース言語で訓練されたより小さなモデルでPaLM2-Sを増強すると、英語への翻訳のようなタスクで最大13%の改善が達成される。
PaLM2-Sがコード固有モデルで拡張されると、コード生成や説明タスクのベースモデルよりも40%向上する。
論文 参考訳(メタデータ) (2024-01-04T18:53:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。