論文の概要: Activation Manifold Projection: Liberating Task-Specific Behaviors from LLM Architectures
- arxiv url: http://arxiv.org/abs/2510.17902v1
- Date: Sun, 19 Oct 2025 10:55:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.334028
- Title: Activation Manifold Projection: Liberating Task-Specific Behaviors from LLM Architectures
- Title(参考訳): Activation Manifold Projection: LLMアーキテクチャからタスク特有の振る舞いを解放する
- Authors: Al Kari,
- Abstract要約: 本稿では,LoRA符号化された動作を解放する新しいフレームワークであるCartridge Activation Space Transfer (CAST)を紹介する。
CASTは、ターゲットモデルのアクティベーションストリームをソースモデルの潜在空間に変換する、軽量で双方向のプロジェクションヘッドのセットを学習する。
実験により、CAST変換アダプタは、ターゲットモデル上で完全に再訓練されたLoRAの性能の85-95%を達成することが示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The proliferation of Large Language Model (LLM) architectures presents a fundamental challenge: valuable, task-specific behaviors learned through fine-tuning methods like Low-Rank Adaptation (LoRA) are effectively trapped within their source model's architecture, herein referred to architectural lock-in. Existing transfer methods attempt to bridge this gap by aligning the static weight spaces of models, a brittle and indirect approach that relies on tenuous correlations between parameter geometries. This paper introduces a fundamentally different and more direct paradigm: the Cartridge Activation Space Transfer (CAST), a novel framework that liberates LoRA-encoded behaviors by learning a direct, nonlinear mapping between the activation manifolds, the geometric structures formed by the model's internal neuron activations, of two distinct LLM architectures. CAST treats a pre-trained LoRA as a frozen "behavioral kernel." It learns a set of lightweight, bidirectional projection heads that translate the target model's activation stream into the source model's latent space, apply the frozen kernel, and project the result back. This process, trained on a general text corpus without any task-specific data, effectively decouples the learned skill from the source architecture. We demonstrate that CAST enables true "zero-shot" translation of any standard LoRA adapter. Our experiments, including transfers between heterogeneous model families like Llama-2 and Mistral, show that CAST-translated adapters achieve 85-95\% of the performance of a LoRA fully retrained on the target model, quantitatively outperforming current weight-space transfer techniques and establishing a new state-of-the-art in model interoperability.
- Abstract(参考訳): Low-Rank Adaptation (LoRA)のような微調整手法で学んだタスク固有の振る舞いは、アーキテクチャロックインを参照して、ソースモデルのアーキテクチャに事実上閉じ込められています。
既存の移動法は、モデルの静的な重み空間を整列させることによってこのギャップを埋めようとするが、これはパラメーター幾何学間の不規則な相関に依存する不安定で間接的なアプローチである。
モデルの内部ニューロン活性化によって形成される幾何学的構造である活性化多様体間の直接非線形マッピングを学習し,ロラ符号化された振る舞いを解放する新しいフレームワークであるCartridge Activation Space Transfer (CAST)を紹介した。
CASTは、事前訓練されたLoRAを凍結された「行動核」として扱う。
ターゲットモデルのアクティベーションストリームをソースモデルの潜在空間に変換し、凍結したカーネルを適用し、その結果を投影する、軽量で双方向のプロジェクションヘッドのセットを学習する。
このプロセスは、タスク固有のデータを持たない一般的なテキストコーパスで訓練され、学習したスキルをソースアーキテクチャから効果的に切り離す。
我々は、CASTが標準のLoRAアダプタの真の「ゼロショット」翻訳を可能にすることを実証した。
Llama-2 や Mistral のような異種モデルファミリ間のトランスファーを含む実験により,CAST 変換アダプタは,目標モデル上で完全に再トレーニングされた LoRA の性能の85-95 % を達成し,現行の重量空間移動技術より定量的に向上し,モデル相互運用における新たな最先端技術を確立した。
関連論文リスト
- Hierarchical Alignment: Surgical Fine-Tuning via Functional Layer Specialization in Large Language Models [4.935224714809964]
階層的アライメント(Hierarchical Alignment)は、モデルレイヤの異なる機能ブロックにターゲットDPOを適用する新しい手法である。
具体的には、局所的な層(ローカル・アライン)の整列は文法的な流感を高める。
グローバル層(Global-Align)の整合性は、仮説として事実整合性を改善するが、論理的コヒーレンスを強化するための最も効果的な戦略であることを証明している。
論文 参考訳(メタデータ) (2025-10-14T00:58:34Z) - Every Step Counts: Decoding Trajectories as Authorship Fingerprints of dLLMs [63.82840470917859]
本稿では,dLLMの復号化機構をモデル属性の強力なツールとして利用できることを示す。
本稿では、デコードステップ間の構造的関係を捉え、モデル固有の振る舞いをよりよく明らかにする、DDM(Directed Decoding Map)と呼ばれる新しい情報抽出手法を提案する。
論文 参考訳(メタデータ) (2025-10-02T06:25:10Z) - Round-trip Reinforcement Learning: Self-Consistent Training for Better Chemical LLMs [51.29260537017623]
大規模言語モデル (LLM) は計算化学の汎用基盤モデルとして登場しつつある。
これらのモデルは、しばしば往復一貫性を欠いている。
本稿では,その一貫性を向上させるためにモデルをトレーニングする新しいフレームワークであるRound-Trip Reinforcement Learning(RTRL)を紹介する。
論文 参考訳(メタデータ) (2025-10-01T23:58:58Z) - Structural Similarity-Inspired Unfolding for Lightweight Image Super-Resolution [88.20464308588889]
効率的な画像SRのための構造類似インスパイアド・アンフォールディング(SSIU)法を提案する。
この方法は、構造的類似性に制約されたSR最適化関数の展開によって設計される。
我々のモデルは現在の最先端モデルより優れており、パラメータ数が低く、メモリ消費が減少している。
論文 参考訳(メタデータ) (2025-06-13T14:29:40Z) - Leveraging Importance Sampling to Detach Alignment Modules from Large Language Models [48.15777554876988]
伝統的なアライメント手法では、しばしば大きな事前訓練されたモデルを再訓練する必要がある。
本稿では,アライメント処理を重要サンプリングの一種として形式化する新しいtextitResidual Alignment Model (textitRAM) を提案する。
本稿では,トークンレベルの復号化を反復的に行う再サンプリングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-05-26T08:53:02Z) - d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning [31.531278643184656]
最近の大規模言語モデル(LLM)は、オンライン強化学習(RL)の恩恵を受ける強力な推論能力を示している。
教師付きファインタニング(SFT)とRLの組み合わせにより,事前学習したマスク付きdLLMを推論モデルに適応するフレームワークであるd1を提案する。
d1は最高の性能を示し、最先端のdLLMの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2025-04-16T16:08:45Z) - Cross-Architecture Transfer Learning for Linear-Cost Inference Transformers [1.1499643186017316]
本稿では,トランスフォーマ言語モデルの効率を向上させるために,クロスアーキテクチャトランスファー学習(XATL)を提案する。
Methodabbrはトレーニング時間を最大2.5倍に削減し、同じ計算予算内でLMベンチマークで最大2.6%より強力なモデルで最小限に収束する。
論文 参考訳(メタデータ) (2024-04-03T12:27:36Z) - CRaSh: Clustering, Removing, and Sharing Enhance Fine-tuning without
Full Large Language Model [22.870512676002463]
本稿では,集中型LCMと下流エミュレータ間でトランスフォーマブロックを転送する代表的手法であるOffsite-Tuning(OFT)に焦点を当てる。
これらの観測にインスパイアされたCRaShは、LCMから改善エミュレータを導出するトレーニングフリー戦略であるClustering、Removing、Sharingを含む。
以上の結果から,CRaShとOFTの有効性が明らかとなった。
論文 参考訳(メタデータ) (2023-10-24T03:08:58Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。