論文の概要: TiTok: Transfer Token-level Knowledge via Contrastive Excess to Transplant LoRA
- arxiv url: http://arxiv.org/abs/2510.04682v1
- Date: Mon, 06 Oct 2025 10:47:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.809447
- Title: TiTok: Transfer Token-level Knowledge via Contrastive Excess to Transplant LoRA
- Title(参考訳): TiTok: LoRA移植へのコントラスト過剰によるトークンレベルの知識の移行
- Authors: Chanjoo Jung, Jaehyung Kim,
- Abstract要約: 大規模言語モデル(LLM)は現実世界のシナリオに広く適用されているが、微調整には計算と記憶のコストがかなりかかる。
本稿では,Tokenレベルの知識伝達による効果的なLoRA移植を可能にする新しいフレームワークであるTiTokを提案する。
- 参考スコア(独自算出の注目度): 6.612630497074871
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are widely applied in real world scenarios, but fine-tuning them comes with significant computational and storage costs. Parameter-Efficient Fine-Tuning (PEFT) methods such as LoRA mitigate these costs, but the adapted parameters are dependent on the base model and cannot be transferred across different backbones. One way to address this issue is through knowledge distillation, but its effectiveness inherently depends on training data. Recent work such as TransLoRA avoids this by generating synthetic data, but this adds complexity because it requires training an additional discriminator model. In this paper, we propose TiTok, a new framework that enables effective LoRA Transplantation through Token-level knowledge transfer. Specifically, TiTok captures task-relevant information through a contrastive excess between a source model with and without LoRA. This excess highlights informative tokens and enables selective filtering of synthetic data, all without additional models or overhead. Through experiments on three benchmarks across multiple transfer settings, our experiments show that the proposed method is consistently effective, achieving average performance gains of +4~8% compared to baselines overall.
- Abstract(参考訳): 大規模言語モデル(LLM)は現実世界のシナリオに広く適用されているが、微調整には計算と記憶のコストがかなりかかる。
LoRAのようなパラメータ効率の良いファインチューニング(PEFT)手法はこれらのコストを軽減するが、適応されたパラメータはベースモデルに依存し、異なるバックボーン間で転送することはできない。
この問題に対処する方法の1つは、知識蒸留によるものであるが、その効果は本質的には訓練データに依存する。
TransLoRAのような最近の研究は、合成データを生成することによってこれを回避しているが、さらなる差別化モデルをトレーニングする必要があるため、複雑さが増す。
本稿では,Tokenレベルの知識伝達による効率的なLoRA移植を可能にする新しいフレームワークであるTiTokを提案する。
具体的には、TiTokは、LoRAを使用せずにソースモデル間の対照的なオーバーライドを通じてタスク関連情報をキャプチャする。
この過剰な処理は情報トークンを強調し、追加のモデルやオーバーヘッドなしで合成データの選択的フィルタリングを可能にする。
複数の転送環境における3つのベンチマーク実験により,提案手法が一貫した有効性を示し,全体のベースラインに比べて平均性能が4~8%向上した。
関連論文リスト
- Thinking Augmented Pre-training [88.04395622064708]
拡張事前学習は、自動生成された思考軌跡でテキストを増強する普遍的な方法論である。
本稿では,既存のテキストデータを思考トラジェクトリで拡張することにより,大規模言語モデル(LLM)トレーニングのデータ効率を向上させるための,シンプルでスケーラブルなアプローチを提案する。
論文 参考訳(メタデータ) (2025-09-24T14:45:13Z) - PointLoRA: Low-Rank Adaptation with Token Selection for Point Cloud Learning [54.99373314906667]
ポイントクラウドのための自己教師付き表現学習は、様々なタスクで事前訓練されたモデルパフォーマンスを改善する効果を実証した。
事前訓練されたモデルは複雑さが増すにつれて、下流のアプリケーションに完全に微調整を施すには、かなりの計算資源とストレージ資源が必要である。
そこで我々は,低ランク適応(LoRA)とマルチスケールトークン選択を併用した簡易かつ効果的なPointLoRAを提案する。
論文 参考訳(メタデータ) (2025-04-22T16:41:21Z) - $\textit{Trans-LoRA}$: towards data-free Transferable Parameter Efficient Finetuning [28.668326340001695]
低ランクアダプタ(LoRA)とその変種はパラメータ効率の良い微調整技術として人気がある。
ベースモデルを新しいモデルに置き換える必要がある場合、関連するすべてのLoRAモジュールを再トレーニングする必要がある。
LoRAモジュールとベースモデルがサービスプロバイダによってホストされている商用クラウドアプリケーションには特に問題があります。
論文 参考訳(メタデータ) (2024-05-27T15:15:08Z) - FeDeRA:Efficient Fine-tuning of Language Models in Federated Learning Leveraging Weight Decomposition [7.229494183462913]
微調整後の例外的なパフォーマンスにもかかわらず、プレトレーニング言語モデル(PLM)はプライバシー上の懸念から重大な課題に直面している。
本論文では,フェデレートラーニング(FL)を微調整PLMとみなす。
1つの有望な解決策はパラメータ効率細調整(PEFT)をFLに活用することであり、完全なパラメータ細調整(FFT)よりもはるかに小さなパラメータセットを訓練する。
論文 参考訳(メタデータ) (2024-04-29T16:42:26Z) - SLoRA: Federated Parameter Efficient Fine-Tuning of Language Models [28.764782216513037]
FL(Federated Learning)は、FLエッジクライアントの分散データとプライベートデータの恩恵を受けることができる。
異種データシナリオにおけるLoRAの重要な制約を克服するSLoRAという手法を提案する。
実験の結果,SLoRAは完全微調整に匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-08-12T10:33:57Z) - Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文 参考訳(メタデータ) (2020-10-16T17:45:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。