論文の概要: Neural Organ Transplantation (NOT): Checkpoint-Based Modular Adaptation for Transformer Models
- arxiv url: http://arxiv.org/abs/2601.13580v1
- Date: Tue, 20 Jan 2026 04:10:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.150547
- Title: Neural Organ Transplantation (NOT): Checkpoint-Based Modular Adaptation for Transformer Models
- Title(参考訳): 神経臓器移植(NOT: Checkpoint-based Modular Adaptation for Transformer Models)
- Authors: Ahmad Al-Zuraiqi,
- Abstract要約: 我々は、トレーニングされたトランスフォーマー層をドメイン適応のための再利用可能なチェックポイントとして機能させることができるモジュラー適応フレームワークであるNeural Organ Transplantation (NOT)を導入する。
事前訓練されたモデルから連続的なレイヤサブセット(ドナーオルガン)を抽出せず、ドメイン固有のデータで独立してトレーニングし、元のトレーニングデータにアクセスせずに互換性のあるモデルに移植可能なスタンドアロンのチェックポイントファイルとして保存する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Neural Organ Transplantation (NOT), a modular adaptation framework that enables trained transformer layers to function as reusable transferable checkpoints for domain adaptation. Unlike conventional fine-tuning approaches that tightly couple trained parameters to specific model instances and training data, NOT extracts contiguous layer subsets ("donor organs") from pre-trained models, trains them independently on domain-specific data, and saves them as standalone checkpoint files that can be transplanted into compatible recipient models without access to the original training data. Through experiments on three decoder-only transformer architectures spanning 124M to 20B parameters (GPT-2, TinyLlama, and GPT-OSS), we demonstrate that donor transplantation substantially outperforms existing adaptation methods, achieving an order-of-magnitude improvement in perplexity over LoRA while training significantly faster. The method exhibits position dependence, with early insertion positions yielding optimal results. Cross-domain transfer at billion-parameter scale reveals unexpected regularization benefits. These findings demonstrate that transformer middle layers can support efficient modular transfer for decoder-only architectures, enabling privacy-preserving expertise sharing through checkpoint distribution. We note that this approach is currently limited to decoder-only models; preliminary experiments on encoder-based architectures show reduced effectiveness.
- Abstract(参考訳): 我々は、トレーニングされたトランスフォーマー層をドメイン適応のための再利用可能なチェックポイントとして機能させることができるモジュラー適応フレームワークであるNeural Organ Transplantation (NOT)を導入する。
訓練済みパラメータを特定のモデルインスタンスとトレーニングデータに密に結合する従来の微調整アプローチとは異なり、NOTは事前訓練済みモデルから連続的なレイヤサブセット(ドナーオルガン)を抽出し、ドメイン固有のデータに独立してトレーニングし、元のトレーニングデータにアクセスせずに互換性のあるレシーバモデルに移植可能なスタンドアロンのチェックポイントファイルとして保存する。
124Mから20Bのパラメータ(GPT-2, TinyLlama, GPT-OSS)にまたがる3つのデコーダのみのトランスフォーマアーキテクチャの実験により, ドナー移植は既存の適応法よりも大幅に優れており, 学習速度が大幅に向上し, 難易度がLoRAよりも大幅に向上することを示した。
この方法は位置依存を示し、初期挿入位置は最適な結果をもたらす。
10億パラメータスケールでのクロスドメイン転送は、予期せぬ正規化の利点を示す。
これらの結果は、トランスフォーマー中間層がデコーダのみのアーキテクチャの効率的なモジュール転送をサポートできることを示し、チェックポイント配布によるプライバシー保護専門知識の共有を可能にした。
現在、この手法はデコーダのみのモデルに限られており、エンコーダベースのアーキテクチャに関する予備実験では、効率が低下している。
関連論文リスト
- MPCA-based Domain Adaptation for Transfer Learning in Ultrasonic Guided Waves [0.8156494881838946]
マルチ線形主成分分析(MPCA)に基づく新しい伝達学習(TL)フレームワークを提案する。
ソースドメインとターゲットドメインにMPCAを併用することにより、共有潜在特徴を抽出し、効果的なドメイン適応を可能にする。
提案したMPCAを用いたTL法は, 異なる複合材料とセンサアレイを含む12種類のケーススタディに対して試験を行った。
論文 参考訳(メタデータ) (2025-08-01T14:02:26Z) - Test-time adaptation for geospatial point cloud semantic segmentation with distinct domain shifts [6.80671668491958]
テスト時間適応(TTA)は、ソースデータへのアクセスや追加のトレーニングなしに、推論段階でラベル付けされていないデータに事前訓練されたモデルの直接適応を可能にする。
本稿では,3つの領域シフトパラダイムを提案する。光グラムから空気中LiDAR,空気中LiDAR,合成-移動レーザー走査である。
実験の結果,分類精度は最大20%mIoUに向上し,他の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-07-08T15:40:28Z) - Generalized Face Forgery Detection via Adaptive Learning for Pre-trained Vision Transformer [54.32283739486781]
適応学習パラダイムの下で,textbfForgery-aware textbfAdaptive textbfVision textbfTransformer(FA-ViT)を提案する。
FA-ViTは、クロスデータセット評価において、Celeb-DFおよびDFDCデータセット上で93.83%と78.32%のAUCスコアを達成する。
論文 参考訳(メタデータ) (2023-09-20T06:51:11Z) - Fourier Test-time Adaptation with Multi-level Consistency for Robust
Classification [10.291631977766672]
本稿では,Fourier Test-Time Adaptation (FTTA) と呼ばれる新しい手法を提案する。
FTTAは、予測の自己監督を行うために、ペア入力の信頼性の高い多レベル整合性測定を構築する。
異なる形態と器官を持つ3つの大きな分類データセットで広範囲に検証された。
論文 参考訳(メタデータ) (2023-06-05T02:29:38Z) - Rethinking Efficient Tuning Methods from a Unified Perspective [34.67645496324432]
我々はPETLの設計パラダイムを再検討し、パラメータ効率の伝達学習のための統一的なフレームワークU-Tuningを導出する。
U-Tuningフレームワークは、既存の手法を同時に包含し、パラメータ効率の移行学習のための新しいアプローチを導出することができる。
論文 参考訳(メタデータ) (2023-03-01T17:38:03Z) - Prompt Tuning for Parameter-efficient Medical Image Segmentation [79.09285179181225]
2つの医用画像データセットのセマンティックセグメンテーションにパラメータ効率が良いが効果的な適応を実現するために,いくつかのコントリビューションを提案し,検討する。
我々はこのアーキテクチャを、オンライン生成プロトタイプへの割り当てに基づく専用密集型セルフスーパービジョンスキームで事前訓練する。
得られたニューラルネットワークモデルにより、完全に微調整されたモデルとパラメータに適応したモデルとのギャップを緩和できることを実証する。
論文 参考訳(メタデータ) (2022-11-16T21:55:05Z) - Integral Migrating Pre-trained Transformer Encoder-decoders for Visual
Object Detection [78.2325219839805]
imTEDは、数発のオブジェクト検出の最先端を最大7.6%改善する。
MS COCOデータセットの実験は、imTEDが一貫してそのデータセットを2.8%上回っていることを示している。
論文 参考訳(メタデータ) (2022-05-19T15:11:20Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。