論文の概要: Compositional Subspace Representation Fine-tuning for Adaptive Large Language Models
- arxiv url: http://arxiv.org/abs/2503.10617v2
- Date: Sun, 16 Mar 2025 20:15:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:36:49.765341
- Title: Compositional Subspace Representation Fine-tuning for Adaptive Large Language Models
- Title(参考訳): 適応型大言語モデルに対する合成部分空間表現の微調整
- Authors: Andy Zhou,
- Abstract要約: 大規模言語モデルを複数のタスクに適応させることは、クロススキルの干渉を引き起こす可能性がある。
合成部分空間表現ファインチューニング(CS-ReFT)を提案する。
CS-ReFTは複数の正規直交部分空間変換を学習し、それぞれ異なるスキルを習得し、軽量ルータを介して構成する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Adapting large language models to multiple tasks can cause cross-skill interference, where improvements for one skill degrade another. While methods such as LoRA impose orthogonality constraints at the weight level, they do not fully address interference in hidden-state representations. We propose Compositional Subspace Representation Fine-tuning (CS-ReFT), a novel representation-based approach that learns multiple orthonormal subspace transformations, each specializing in a distinct skill, and composes them via a lightweight router. By isolating these subspace edits in the hidden state, rather than weight matrices, CS-ReFT prevents cross-task conflicts more effectively. On the AlpacaEval benchmark, applying CS-ReFT to Llama-2-7B achieves a 93.94% win rate, surpassing GPT-3.5 Turbo (86.30%) while requiring only 0.0098% of model parameters. These findings show that specialized representation edits, composed via a simple router, significantly enhance multi-task instruction following with minimal overhead.
- Abstract(参考訳): 大きな言語モデルを複数のタスクに適応させると、クロススキルの干渉が発生し、そこでは1つのスキルの改善が別のスキルを劣化させる。
LoRAのような手法はウェイトレベルで直交制約を課すが、隠れ状態表現の干渉に完全に対処するわけではない。
本稿では,複数の正規直交部分空間変換を学習し,それぞれが異なるスキルを習得し,軽量ルータを介して構成する新しい表現ベース手法であるCS-ReFTを提案する。
これらの部分空間の編集を重み行列ではなく隠れ状態に分離することにより、CS-ReFTはクロスタスクの競合をより効果的に防止する。
AlpacaEval のベンチマークでは、CS-ReFT を Llama-2-7B に適用すると 93.94% の勝利率で GPT-3.5 Turbo (86.30%) を上回り、モデルパラメータの 0.0098% しか必要としない。
これらの結果から,単純なルータによって構成された特殊表現編集により,最小限のオーバーヘッドでマルチタスク命令が大幅に向上することが示唆された。
関連論文リスト
- Transforming Indoor Localization: Advanced Transformer Architecture for NLOS Dominated Wireless Environments with Distributed Sensors [7.630782404476683]
本稿では,電力遅延プロファイル (PDP) の可変固有表現を保存する新しいトークン化手法であるSensor Snapshot Tokenization (SST) を提案する。
また,Swish-Gated Linear Unit-based Transformer (L-SwiGLU Transformer) モデルを提案する。
論文 参考訳(メタデータ) (2025-01-14T01:16:30Z) - Towards Generalizable Trajectory Prediction Using Dual-Level Representation Learning And Adaptive Prompting [107.4034346788744]
既存の車両軌道予測モデルは、一般化可能性、予測の不確実性、複雑な相互作用を扱う。
本研究では,(1)自己拡張(SD)とマスドレコンストラクション(MR)による二重レベル表現学習,グローバルコンテキストと細部の詳細の収集,(2)レジスタベースのクエリと事前学習の強化,クラスタリングと抑圧の必要性の排除,(3)微調整中の適応型プロンプトチューニング,メインアーキテクチャの凍結,および少数のプロンプトの最適化といった,新たなトラジェクタ予測フレームワークであるPerceiverを提案する。
論文 参考訳(メタデータ) (2025-01-08T20:11:09Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - RECAST: Reparameterized, Compact weight Adaptation for Sequential Tasks [16.512587987753967]
RECASTはタスク固有のトレーニング可能なパラメータを50未満に劇的に削減する新しい手法である。
本稿では,RECASTが様々なスケール,アーキテクチャ,パラメータ空間において,最先端の技術を最大3%向上させることを示す。
論文 参考訳(メタデータ) (2024-11-25T19:08:38Z) - HiVG: Hierarchical Multimodal Fine-grained Modulation for Visual Grounding [80.85164509232261]
HiVGは多層適応型クロスモーダルブリッジと階層型マルチモーダル低ランク適応(HiLoRA)パラダイムで構成されている。
HiLoRAは、階層的な方法で、クロスモーダルな特徴を浅い層から深い層に適応させることによって、知覚エラーの蓄積を防止する。
論文 参考訳(メタデータ) (2024-04-20T14:57:31Z) - Batched Low-Rank Adaptation of Foundation Models [14.037826400805741]
ローランド適応 (LoRA) は, トレーニング可能な低ランク行列を組み込んだファウンデーションモデルに注目されている。
我々はFast LoRA(FloRA)という,ミニバッチにおける各入力例を,そのユニークな低ランク適応重みに関連付けることのできるフレームワークを紹介した。
我々は,FLoRAがLoRAの性能特性を保っていることを実証的に証明し,8言語にまたがるMultipleコード生成ベンチマークと6言語にまたがる多言語音声認識タスクにおいて,競合する結果を示す。
論文 参考訳(メタデータ) (2023-12-09T20:51:48Z) - Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z) - Switchable Representation Learning Framework with Self-compatibility [50.48336074436792]
自己整合性(SFSC)を考慮した交換可能な表現学習フレームワークを提案する。
SFSCは1つのトレーニングプロセスを通じて、異なる能力を持つ一連の互換性のあるサブモデルを生成する。
SFSCは評価データセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-06-16T16:46:32Z) - LoRA: Low-Rank Adaptation of Large Language Models [71.75808607987281]
Low-Rank Adaptation (LoRA)はトレーニング済みモデルの重みを凍結し、トレーニング可能な階数分解をTransformerアーキテクチャの各層に注入する。
GPT-3では、LoRAはトレーニング可能なパラメータの数を1万倍に減らし、計算ハードウェアの要求をフル微調整の3倍に削減できる。
論文 参考訳(メタデータ) (2021-06-17T17:37:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。