論文の概要: Solo Connection: A Parameter Efficient Fine-Tuning Technique for Transformers
- arxiv url: http://arxiv.org/abs/2507.14353v1
- Date: Fri, 18 Jul 2025 20:11:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:31.853024
- Title: Solo Connection: A Parameter Efficient Fine-Tuning Technique for Transformers
- Title(参考訳): Solo Connection: 変圧器のパラメータ効率的な微調整手法
- Authors: Harsh Nilesh Pathak, Randy Paffenroth,
- Abstract要約: Solo Connectionは、個々の重み行列を変更するのではなく、デコーダブロックレベルで表現を適応する新しい方法である。
Solo Connectionは、E2Eの自然言語生成ベンチマークでLoRAを上回っているだけでなく、トレーニング可能なパラメータの数を59%削減している。
本稿では、異なるデコーダブロックの出力をリンクする長いスキップ接続に着目し、事前学習された知識を活用しながら、新しいタスクに適応する能力を高める可能性がある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parameter efficient fine tuning (PEFT) is a versatile and extensible approach for adapting a Large Language Model (LLM) for newer tasks. One of the most prominent PEFT approaches, Low Rank Adaptation (LoRA), primarily focuses on adjusting the attention weight matrices within individual decoder blocks of a Generative Pre trained Transformer (GPT2). In contrast, we introduce Solo Connection a novel method that adapts the representation at the decoder-block level rather than modifying individual weight matrices. Not only does Solo Connection outperform LoRA on E2E natural language generation benchmarks, but it also reduces the number of trainable parameters by 59% relative to LoRA and by more than 99% compared to full fine-tuning of GPT2, an early version of Large Language Models (LLMs). Solo Connection is also motivated by homotopy theory: we introduce a trainable linear transformation that gradually interpolates between a zero vector and the task-specific representation, enabling smooth and stable adaptation over time. While skip connections in the original 12 layer GPT2 are typically confined to individual decoder blocks, subsequent GPT2 variants scale up to 48 layers, and even larger language models can include 128 or more decoder blocks. These expanded architectures underscore the need to revisit how skip connections are employed during fine-tuning. This paper focuses on long skip connections that link outputs of different decoder blocks, potentially enhancing the model's ability to adapt to new tasks while leveraging pre-trained knowledge.
- Abstract(参考訳): パラメータ効率のよい微調整(PEFT)は、新しいタスクにLarge Language Model(LLM)を適用するための汎用的で拡張性の高いアプローチである。
PEFTの最も顕著なアプローチの1つであるローランク適応(LoRA)は、主にジェネレーティブプレトレーニングトランスフォーマー(GPT2)の個々のデコーダブロック内の注目重量行列を調整することに焦点を当てている。
対照的に、Solo Connectionは、個々の重み行列を変更するのではなく、デコーダブロックレベルで表現を適応する新しい方法である。
Solo Connectionは、E2Eの自然言語生成ベンチマークでLoRAを上回っているだけでなく、LoRAと比較してトレーニング可能なパラメータの数を59%削減し、LLM(Large Language Models)の初期バージョンであるGPT2の完全な微調整に比べて99%以上削減している。
ゼロベクトルとタスク固有表現を徐々に補間し、時間とともに滑らかで安定した適応を可能にする、訓練可能な線形変換を導入する。
元の12層のGPT2のスキップ接続は通常、個々のデコーダブロックに限られるが、その後のGPT2変種は48層まで拡張され、さらに大きな言語モデルは128以上のデコーダブロックを含むことができる。
これらの拡張アーキテクチャは、微調整中にスキップ接続がどのように使用されるかを再考する必要性を浮き彫りにする。
本稿では、異なるデコーダブロックの出力をリンクする長いスキップ接続に着目し、事前学習された知識を活用しながら、新しいタスクに適応する能力を高める可能性がある。
関連論文リスト
- Transducer Tuning: Efficient Model Adaptation for Software Tasks Using Code Property Graphs [8.26418657158164]
アプローチは、コードプロパティグラフ(CPG)を使用して下流のコードタスクに大規模なモデルを適用するテクニックである。
我々のアプローチではTransducerと呼ばれるモジュラーコンポーネントを導入し、CPGからの構造化情報と依存性情報によってコード埋め込みを強化します。
その結果,最大99%のトレーニング可能なパラメータを削減し,最大99%のメモリ削減を実現した。
論文 参考訳(メタデータ) (2024-12-18T03:25:17Z) - Tracking Meets LoRA: Faster Training, Larger Model, Stronger Performance [87.19164603145056]
実験室レベルの資源をトラッキングするための大規模ViTモデルのパワーを明らかにする手法であるLoRATを提案する。
私たちの作業の本質は、推論レイテンシを追加することなく、モデルパラメータの小さなサブセットを微調整するテクニックであるLoRAを適用することです。
我々はPETRの適応のみに基づくアンカーフリーヘッドを設計し、計算オーバーヘッドを少なくして性能を向上する。
論文 参考訳(メタデータ) (2024-03-08T11:41:48Z) - WeGeFT: Weight-Generative Fine-Tuning for Multi-Faceted Efficient Adaptation of Large Models [8.481707805559589]
WeGeFT(Weight-Generative Fine-Tuning)は、トレーニング済みの重みから直接微調整重みを生成することを学習する新しい手法である。
この設計は、パラメータ、表現、計算、メモリの多面的効率を実現し、LoRAとその変種の性能を維持したり、超えたりしている。
論文 参考訳(メタデータ) (2023-12-01T16:33:57Z) - UniPT: Universal Parallel Tuning for Transfer Learning with Efficient
Parameter and Memory [69.33445217944029]
PETLは、トレーニング済みモデルを下流ドメインに適応するための効果的な戦略である。
最近のPETLは、より価値の高いメモリ効率特性に焦点を当てている。
メモリ効率の良い新しいPETL戦略Universal Parallel Tuning (UniPT)を提案する。
論文 参考訳(メタデータ) (2023-08-28T05:38:43Z) - Deformable Mixer Transformer with Gating for Multi-Task Learning of
Dense Prediction [126.34551436845133]
CNNとTransformerには独自の利点があり、MTL(Multi-task Learning)の高密度予測に広く使われている。
本稿では,変形可能なCNNと問合せベースのTransformerの長所を共用したMTLモデルを提案する。
論文 参考訳(メタデータ) (2023-08-10T17:37:49Z) - AdaMix: Mixture-of-Adapter for Parameter-efficient Tuning of Large
Language Models [119.7093605087114]
大規模なトレーニング済み言語モデルをダウンストリームタスクに微調整するには、数億のパラメータを更新する必要がある。
これにより、各タスクのモデルの重みの大量コピーを格納するためのサービスコストが増大するだけでなく、数発のタスク適応中に不安定を示す。
パラメータや計算コストを2つの重要な手法で増大させることなく、アダプタ容量を改善するための新しいメカニズムを導入する。
論文 参考訳(メタデータ) (2022-05-24T23:41:22Z) - LoRA: Low-Rank Adaptation of Large Language Models [71.75808607987281]
Low-Rank Adaptation (LoRA)はトレーニング済みモデルの重みを凍結し、トレーニング可能な階数分解をTransformerアーキテクチャの各層に注入する。
GPT-3では、LoRAはトレーニング可能なパラメータの数を1万倍に減らし、計算ハードウェアの要求をフル微調整の3倍に削減できる。
論文 参考訳(メタデータ) (2021-06-17T17:37:18Z) - Glancing Transformer for Non-Autoregressive Neural Machine Translation [58.87258329683682]
単一パス並列生成モデルにおける単語相互依存の学習法を提案する。
単一パスの並列デコードだけで、GLATは8~15倍のスピードアップで高品質な翻訳を生成することができる。
論文 参考訳(メタデータ) (2020-08-18T13:04:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。