論文の概要: Beyond Neural Incompatibility: Easing Cross-Scale Knowledge Transfer in Large Language Models through Latent Semantic Alignment
- arxiv url: http://arxiv.org/abs/2510.24208v1
- Date: Tue, 28 Oct 2025 09:25:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.917565
- Title: Beyond Neural Incompatibility: Easing Cross-Scale Knowledge Transfer in Large Language Models through Latent Semantic Alignment
- Title(参考訳): ニューラル不和合性を超えて:潜在セマンティックアライメントによる大規模言語モデルにおけるクロススケールな知識伝達を容易にする
- Authors: Jian Gu, Aldeida Aleti, Chunyang Chen, Hongyu Zhang,
- Abstract要約: 大規模言語モデル(LLM)は、膨大なパラメータの膨大な知識をエンコードする。
神経の解釈可能性の進歩にもかかわらず、どのようにして細かな方法で知識を伝達するか、すなわちパラメトリックな知識伝達(PKT)は明らかになっていない。
- 参考スコア(独自算出の注目度): 22.84428628659889
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) encode vast amounts of knowledge in their massive parameters, which is accessible to locate, trace, and analyze. Despite advances in neural interpretability, it is still not clear how to transfer knowledge in a fine-grained manner, namely parametric knowledge transfer (PKT). A key problem is enabling effective and efficient knowledge transfer across LLMs of different scales, which is essential for achieving greater flexibility and broader applicability in transferring knowledge between LLMs. Due to neural incompatibility, referring to the architectural and parametric differences between LLMs of varying scales, existing methods that directly reuse layer parameters are severely limited. In this paper, we identify the semantic alignment in latent space as the fundamental prerequisite for LLM cross-scale knowledge transfer. Instead of directly using the layer parameters, our approach takes activations as the medium of layer-wise knowledge transfer. Leveraging the semantics in latent space, our approach is simple and outperforms prior work, better aligning model behaviors across varying scales. Evaluations on four benchmarks demonstrate the efficacy of our method. Further analysis reveals the key factors easing cross-scale knowledge transfer and provides insights into the nature of latent semantic alignment.
- Abstract(参考訳): 大規模言語モデル(LLM)は、膨大なパラメータの膨大な知識をエンコードする。
神経の解釈可能性の進歩にもかかわらず、パラメトリック・ナレッジ・トランスファー(PKT)と呼ばれる微細な方法で知識を伝達する方法はまだ明らかではない。
鍵となる問題は、LLM間の知識の伝達において、より柔軟性とより広い適用性を達成するために不可欠である、異なるスケールのLLM間で効果的かつ効率的な知識伝達を可能にすることである。
様々なスケールのLCM間のアーキテクチャ的およびパラメトリック的な差異を参考に、ニューラルネットワークの非互換性のため、層パラメータを直接再利用する既存の手法は極めて制限されている。
本稿では,LLMのクロススケールな知識伝達の基本的な前提として,潜在空間における意味的アライメントを同定する。
レイヤーパラメータを直接使用する代わりに、我々はレイヤワイドな知識伝達の媒体としてアクティベーションを取ります。
潜在空間におけるセマンティクスを活用することで、私たちのアプローチは単純で、事前の作業よりも優れ、さまざまなスケールでモデルの振る舞いの整合性が向上します。
4つのベンチマークの結果から,本手法の有効性が示された。
さらなる分析により、クロススケールな知識伝達を緩和する重要な要因を明らかにし、潜在意味的アライメントの性質に関する洞察を提供する。
関連論文リスト
- Quantifying Dataset Similarity to Guide Transfer Learning [1.6328866317851185]
クロスラーニングスコア(CLS)は、ドメイン間の双方向のパフォーマンスを通じて、データセットの類似度を測定する。
CLSは、転送が性能を改善するか低下するかを確実に予測できる。
CLSは高次元問題に対する高価な分布推定の問題を回避するため、効率的かつ高速に計算できる。
論文 参考訳(メタデータ) (2025-10-13T00:18:35Z) - Enhancing Cross-task Transfer of Large Language Models via Activation Steering [75.41750053623298]
クロスタスク・イン・コンテキスト学習はタスク間で知識を伝達する直接的なソリューションを提供する。
パラメータ更新や入力拡張を伴わずに、潜時空間ステアリングによりクロスタスク転送を実現することができるかを検討する。
本稿では,モデルの内部アクティベーション状態を操作することで,効率的な転送を可能にするクロスタスク・アクティベーション・ステアリング・トランスファー・フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-17T15:47:22Z) - Neural Incompatibility: The Unbridgeable Gap of Cross-Scale Parametric Knowledge Transfer in Large Language Models [24.017656794423967]
大規模言語モデルは、幅広い知識をエンコードするアクセス可能なパラメータを持つ透明な脳を提供する。
主要な研究課題は、象徴的な言語に根ざした伝統的な知識伝達パラダイムを超越することである。
パラメータを通して異なるスケールのLSM間で知識を伝達する効果的な方法を模索することは、興味深く価値のある研究の方向性を示す。
論文 参考訳(メタデータ) (2025-05-20T14:42:03Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Seeking Neural Nuggets: Knowledge Transfer in Large Language Models from a Parametric Perspective [106.92016199403042]
パラメトリック・パースペクティブを用いて,大規模モデルから小規模モデルへの知識伝達を実証的に検討する。
感性に基づく手法を用いて、異なる大言語モデル間で知識固有のパラメータを抽出・調整する。
本研究は,パラメトリックな知識伝達の過程に寄与する重要な要因を明らかにする。
論文 参考訳(メタデータ) (2023-10-17T17:58:34Z) - Differentiable modeling to unify machine learning and physical models
and advance Geosciences [38.92849886903847]
微分可能地科学モデリング(DG)の概念,適用性,意義について概説する。
微分可能(differentiable)とは、モデル変数に関する勾配を正確かつ効率的に計算すること。
予備的な証拠は、DGが機械学習よりも優れた解釈可能性と因果性を提供することを示している。
論文 参考訳(メタデータ) (2023-01-10T15:24:14Z) - Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文 参考訳(メタデータ) (2020-10-16T17:45:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。