論文の概要: Neural Incompatibility: The Unbridgeable Gap of Cross-Scale Parametric Knowledge Transfer in Large Language Models
- arxiv url: http://arxiv.org/abs/2505.14436v1
- Date: Tue, 20 May 2025 14:42:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.369181
- Title: Neural Incompatibility: The Unbridgeable Gap of Cross-Scale Parametric Knowledge Transfer in Large Language Models
- Title(参考訳): ニューラル不整合性:大規模言語モデルにおけるクロススケールパラメトリックな知識伝達の橋渡し不可能なギャップ
- Authors: Yuqiao Tan, Shizhu He, Kang Liu, Jun Zhao,
- Abstract要約: 大規模言語モデルは、幅広い知識をエンコードするアクセス可能なパラメータを持つ透明な脳を提供する。
主要な研究課題は、象徴的な言語に根ざした伝統的な知識伝達パラダイムを超越することである。
パラメータを通して異なるスケールのLSM間で知識を伝達する効果的な方法を模索することは、興味深く価値のある研究の方向性を示す。
- 参考スコア(独自算出の注目度): 24.017656794423967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) offer a transparent brain with accessible parameters that encode extensive knowledge, which can be analyzed, located and transferred. Consequently, a key research challenge is to transcend traditional knowledge transfer paradigms rooted in symbolic language and achieve genuine Parametric Knowledge Transfer (PKT). Significantly, exploring effective methods for transferring knowledge across LLMs of different scales through parameters presents an intriguing and valuable research direction. In this paper, we first demonstrate $\textbf{Alignment}$ in parametric space is the fundamental prerequisite to achieve successful cross-scale PKT. We redefine the previously explored knowledge transfer as Post-Align PKT (PostPKT), which utilizes extracted parameters for LoRA initialization and requires subsequent fine-tune for alignment. Hence, to reduce cost for further fine-tuning, we introduce a novel Pre-Align PKT (PrePKT) paradigm and propose a solution called $\textbf{LaTen}$ ($\textbf{L}$oc$\textbf{a}$te-$\textbf{T}$h$\textbf{e}$n-Alig$\textbf{n}$) that aligns the parametric spaces of LLMs across scales only using several training steps without following training. Comprehensive experiments on four benchmarks demonstrate that both PostPKT and PrePKT face challenges in achieving consistently stable transfer. Through in-depth analysis, we identify $\textbf{Neural Incompatibility}$ as the ethological and parametric structural differences between LLMs of varying scales, presenting fundamental challenges to achieving effective PKT. These findings provide fresh insights into the parametric architectures of LLMs and highlight promising directions for future research on efficient PKT. Our code is available at https://github.com/Trae1ounG/Neural_Incompatibility.
- Abstract(参考訳): 大規模言語モデル(LLM)は、広範囲にわたる知識を符号化し、分析、位置決定、伝達が可能な、アクセス可能なパラメータを持つ透明な脳を提供する。
その結果、伝統的な知識伝達パラダイムを象徴言語に根ざし、真のパラメトリック知識伝達(PKT)を実現することが重要な研究課題である。
重要なことは、パラメータを通して異なるスケールのLSM間で知識を伝達する効果的な方法を模索することは、興味深く価値のある研究の方向性を示すことである。
本稿では、パラメトリック空間における$\textbf{Alignment}$が、クロススケールなPKTを実現するための基本的な前提条件であることを示す。
抽出したパラメータをLoRA初期化に利用し,その後の微調整を必要とするPost-Align PKT (PostPKT) として,これまでに検討された知識伝達を再定義する。
したがって、さらなる微調整のコストを削減するために、新しいPKT(Pre-Align PKT)パラダイムを導入し、トレーニングを行わずにスケールのパラメトリック空間を複数のトレーニングステップで調整する、$\textbf{L}$oc$\textbf{a}$te-$\textbf{T}$h$\textbf{e}$n-Alig$\textbf{n}$)というソリューションを提案します。
4つのベンチマークに関する総合的な実験は、PostPKTとPrePKTの両方が一貫した安定な転送を達成する上で困難に直面していることを示している。
In-deepth analysis, we identified $\textbf{Neural Incompatibility}$ as the ethological and parametric structure difference between LLMs of various scales, provide a fundamental challenges to achieved effective PKT。
これらの知見は, LLMのパラメトリックアーキテクチャに対する新たな洞察を与え, 今後の効率的なPKT研究の方向性を明らかにするものである。
私たちのコードはhttps://github.com/Trae1ounG/Neural_Incompatibility.orgで利用可能です。
関連論文リスト
- LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - Language Models as Zero-shot Lossless Gradient Compressors: Towards General Neural Parameter Prior Models [56.00251589760559]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。
本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
実験により、LM-GCは既存の最先端のロスレス圧縮手法を超越していることが示された。
論文 参考訳(メタデータ) (2024-09-26T13:38:33Z) - Breaking Language Barriers: Cross-Lingual Continual Pre-Training at Scale [18.015805664219673]
本稿では,既存のLLMから連続的に事前学習(CPT)を行うことにより,大規模言語モデル構築のための代替手法を検討する。
CPTはより高速に収束し、拡張性のある方法で重要なリソースを節約できる。
スケールでの転送の有効性は、トレーニング期間と言語特性に影響され、データ再生に頑健である。
論文 参考訳(メタデータ) (2024-07-02T10:06:41Z) - Prefix Text as a Yarn: Eliciting Non-English Alignment in Foundation Language Model [50.339632513018934]
教師付き微調整(SFT)は、基礎大言語モデル(LLM)の出力を特定の嗜好に合わせるための単純なアプローチである。
我々はこの仮説を言語間タスクの範囲内で批判的に検証する。
タスク関連トークンを最小化するPreTTYという新しいトレーニングフリーアライメント手法を提案する。
論文 参考訳(メタデータ) (2024-04-25T17:19:36Z) - An Empirical Study of $μ$P Learning Rate Transfer [0.0]
実際に,$mu$-Transfer法によってほぼ最適な学習率が得られることを示す。
明らかな約束にもかかわらず、$mu$P メソッドはまだ広く採用されていない。
論文 参考訳(メタデータ) (2024-04-08T17:59:44Z) - Seeking Neural Nuggets: Knowledge Transfer in Large Language Models from a Parametric Perspective [106.92016199403042]
パラメトリック・パースペクティブを用いて,大規模モデルから小規模モデルへの知識伝達を実証的に検討する。
感性に基づく手法を用いて、異なる大言語モデル間で知識固有のパラメータを抽出・調整する。
本研究は,パラメトリックな知識伝達の過程に寄与する重要な要因を明らかにする。
論文 参考訳(メタデータ) (2023-10-17T17:58:34Z) - Transfer Learning for Causal Effect Estimation [12.630663215983706]
本稿では,限られたデータにおける因果効果推定精度を向上させるための伝達因果学習フレームワークを提案する。
その後,本手法は実データに拡張され,医学文献と整合した有意義な洞察が得られた。
論文 参考訳(メタデータ) (2023-05-16T03:13:55Z) - PALT: Parameter-Lite Transfer of Language Models for Knowledge Graph
Completion [108.8941541255567]
本稿では,知識グラフ(KG)完成のための事前学習言語モデル(LM)のパラメータ・ライト変換学習手法を提案する。
全てのLMパラメータを微調整する代わりに、元のLMパラメータを固定しながら、いくつかの新しいパラメータを調整します。
本研究は,マイクロチューニングよりもはるかに少ないパラメータをチューニングすることにより,ほとんどのタスクに非自明に伝達し,従来の最先端手法と競合することを示す。
論文 参考訳(メタデータ) (2022-10-25T02:22:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。