論文の概要: LoRA Users Beware: A Few Spurious Tokens Can Manipulate Your Finetuned Model
- arxiv url: http://arxiv.org/abs/2506.11402v1
- Date: Fri, 13 Jun 2025 02:02:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.625571
- Title: LoRA Users Beware: A Few Spurious Tokens Can Manipulate Your Finetuned Model
- Title(参考訳): LoRAのユーザー、お手軽な剣で自分のモデルを操作できる(動画あり)
- Authors: Pradyut Sekhsaria, Marcel Mateos Salles, Hai Huang, Randall Balestriero,
- Abstract要約: PEFT(Efficient FineTuning)は、学習済みの大規模言語モデル(LLM)と特定の下流タスクをリソース効率のよい方法で整列させる。
PEFTは,その微調整タスクを解くために,ショートカットソリューションを探索するモデルを奨励する。
不正なデータクリーニングから誤ってスプリアストークンが出現することもあるが、悪意ある参加者がモデルの振る舞いを制御できる機会も開ける。
- 参考スコア(独自算出の注目度): 12.093755170926762
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Parameter Efficient FineTuning (PEFT), such as Low-Rank Adaptation (LoRA), aligns pre-trained Large Language Models (LLMs) to particular downstream tasks in a resource-efficient manner. Because efficiency has been the main metric of progress, very little attention has been put in understanding possible catastrophic failures. We uncover one such failure: PEFT encourages a model to search for shortcut solutions to solve its fine-tuning tasks. When very small amount of tokens, e.g., one token per prompt, are correlated with downstream task classes, PEFT makes any pretrained model rely predominantly on that token for decision making. While such spurious tokens may emerge accidentally from incorrect data cleaning, it also opens opportunities for malevolent parties to control a model's behavior from Seamless Spurious Token Injection (SSTI). In SSTI, a small amount of tokens correlated with downstream classes are injected by the dataset creators. At test time, the finetuned LLM's behavior can be controlled solely by injecting those few tokens. We apply SSTI across models from three families (Snowflake Arctic, Apple OpenELM, and Meta LLaMA-3) and four diverse datasets (IMDB, Financial Classification, CommonSense QA, and Bias in Bios). Our findings reveal three astonishing behaviors. First, as few as a single token of SSTI is sufficient to steer a model's decision making. Second, for light SSTI, the reliance on spurious tokens is proportional to the LoRA rank. Lastly, with aggressive SSTI, larger LoRA rank values become preferable to small rank values as it makes the model attend to non-spurious tokens, hence improving robustness.
- Abstract(参考訳): Low-Rank Adaptation (LoRA) のようなパラメータ効率の良いファインタニング(PEFT)は、学習済みの大規模言語モデル(LLM)をリソース効率のよい方法で特定の下流タスクに整列させる。
効率性は進歩の主要な指標であるため、破滅的な失敗の可能性を理解することにはほとんど注意が払われていない。
PEFTはモデルに対して、その微調整タスクを解決するためのショートカットソリューションの探索を奨励する。
非常に少量のトークン(例えば1プロンプト当たりのトークン)が下流のタスククラスと相関している場合、PEFTは事前訓練されたモデルを意思決定のためにそのトークンに大きく依存させる。
このような急激なトークンは誤って不正なデータのクリーニングから現れるかもしれないが、マレヴォレントパーティがSeamless Spurious Token Injection (SSTI) からモデルの振る舞いを制御する機会を開放する。
SSTIでは、下流クラスと相関した少量のトークンがデータセット作成者によって注入される。
テスト時には、微調整されたLLMの振る舞いは、これらのわずかなトークンを注入することによってのみ制御できる。
SSTIはSnowflake Arctic、Apple OpenELM、Meta LLaMA-3の3つのファミリーと4つの多様なデータセット(IMDB、Financial Classification、CommonSense QA、Bias in Bios)のモデルに適用する。
以上の結果から, 驚くべき行動が3つ確認された。
第一に、SSTIのトークンが1つあれば、モデルの判断を下すのに十分です。
第二に、軽いSSTIの場合、スプリアストークンへの依存度はLoRAのランクに比例する。
最後に、アグレッシブSSTIでは、モデルが不純物トークンに出席するので、より大きなLoRAランク値が小さなランク値よりも好まれるようになり、堅牢性が向上する。
関連論文リスト
- Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability [53.51560766150442]
臨界トークンは推論軌道内の要素であり、誤った結果に大きな影響を及ぼす。
本稿では,これらのトークンをロールアウトサンプリングによって識別する新しいフレームワークを提案する。
クリティカルトークンの識別と置換がモデル精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-11-29T18:58:22Z) - Uncertainty-aware Parameter-Efficient Self-training for Semi-supervised
Language Understanding [38.11411155621616]
我々は,主に半教師あり学習の手法として,自己学習について研究している。
我々は,新しい不確かさを意識した自己学習フレームワークであるUPETを紹介する。
UPETは性能と効率の面で大幅に向上したことを示す。
論文 参考訳(メタデータ) (2023-10-19T02:18:29Z) - Guiding Language Model Reasoning with Planning Tokens [122.43639723387516]
大規模言語モデル(LLM)は、最近、複雑な推論タスクを実行する能力に対して、かなりの関心を集めている。
より構造的なチェーン・オブ・シークレット・ステップの創出を促す階層的な生成手法を提案する。
提案手法では、トレーニング可能なパラメータ(0.001%)の無視可能な増加が必要であり、完全な微調整か、よりパラメータ効率の良いスキームで適用することができる。
論文 参考訳(メタデータ) (2023-10-09T13:29:37Z) - Token Dropping for Efficient BERT Pretraining [33.63507016806947]
本研究では,変圧器モデルの事前学習を高速化する簡易かつ効果的な「トーケンドロップ」手法を開発した。
我々は既に組み込まれているマスキング言語モデリング(MLM)の損失を利用して、計算オーバーヘッドのない重要でないトークンを識別する。
この単純なアプローチは、BERTの事前トレーニングコストを25%削減し、標準の下流タスクで同様の微調整性能を実現する。
論文 参考訳(メタデータ) (2022-03-24T17:50:46Z) - ELECTRA: Pre-training Text Encoders as Discriminators Rather Than
Generators [108.3381301768299]
Masked Language Modeling (MLM) は、BERT のような事前学習手法で、いくつかのトークンを [MASK] に置き換えて、元のトークンを再構築するためにモデルをトレーニングすることで入力を破損させた。
代用トークン検出という,より効率的な事前学習タスクを提案する。
論文 参考訳(メタデータ) (2020-03-23T21:17:42Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。