論文の概要: Sensitivity of Small Language Models to Fine-tuning Data Contamination
- arxiv url: http://arxiv.org/abs/2511.06763v1
- Date: Mon, 10 Nov 2025 06:44:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.118884
- Title: Sensitivity of Small Language Models to Fine-tuning Data Contamination
- Title(参考訳): 微調整データ汚染に対する小言語モデルの感度
- Authors: Nicy Scaria, Silvester John Joseph Kennedy, Deepak Subramani,
- Abstract要約: 小言語モデル(SLM)は、資源に制約のある環境にますますデプロイされている。
命令チューニング中の構文的および意味的変換タイプに対する感受性を計測する。
文字反転はサイズや家族に関係なく、すべてのモデルでほぼ完全に失敗する。
セマンティック・トランスフォーメーションは、異なるしきい値の挙動を示し、コア言語能力においてより強いレジリエンスを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Small Language Models (SLMs) are increasingly being deployed in resource-constrained environments, yet their behavioral robustness to data contamination during instruction tuning remains poorly understood. We systematically investigate the contamination sensitivity of 23 SLMs (270M to 4B parameters) across multiple model families by measuring susceptibility to syntactic and semantic transformation types during instruction tuning: syntactic transformations (character and word reversal) and semantic transformations (irrelevant and counterfactual responses), each applied at contamination levels of 25\%, 50\%, 75\%, and 100\%. Our results reveal fundamental asymmetries in vulnerability patterns: syntactic transformations cause catastrophic performance degradation, with character reversal producing near-complete failure across all models regardless of size or family, while semantic transformations demonstrate distinct threshold behaviors and greater resilience in core linguistic capabilities. Critically, we discover a ``\textit{capability curse}" where larger, more capable models become more susceptible to learning semantic corruptions, effectively following harmful instructions more readily, while our analysis of base versus instruction-tuned variants reveals that alignment provides inconsistent robustness benefits, sometimes even reducing resilience. Our work establishes three core contributions: (1) empirical evidence of SLMs' disproportionate vulnerability to syntactic pattern contamination, (2) identification of asymmetric sensitivity patterns between syntactic and semantic transformations, and (3) systematic evaluation protocols for contamination robustness assessment. These findings have immediate deployment implications, suggesting that current robustness assumptions may not hold for smaller models and highlighting the need for contamination-aware training protocols.
- Abstract(参考訳): 小言語モデル (SLM) は資源制約のある環境にますます展開されているが、命令チューニング時のデータ汚染に対する行動的堅牢性はよく分かっていない。
本研究では,複数のモデル群を対象とした23のSLM(270M〜4Bパラメータ)の汚染感度を,構文変換(文字と単語の逆転)と意味変換(関連性および反事実応答)の順に測定し,25 %,50 %,75 %,100 %の汚染レベルに適用した。
構文変換は、サイズや家族に関係なく全てのモデルにほぼ完全な障害を生じさせるが、セマンティック変換は異なるしきい値の挙動を示し、コア言語能力のレジリエンスが向上する。
批判的に言えば、より大きく、より有能なモデルが意味的な腐敗を学習しやすくなり、有害な命令を効果的に追従しやすくなります。
本研究は,(1)SLMの統語的パターン汚染に対する不均衡な脆弱性の実証的証拠,(2)統語的パターンと意味的変換の間の非対称感性パターンの同定,(3)汚染頑健性評価のための体系的評価プロトコルの3つのコアコントリビューションを確立する。
これらの結果は即時展開に影響を及ぼし、現在の堅牢性仮定はより小さなモデルには当てはまらない可能性を示し、汚染を意識したトレーニングプロトコルの必要性を強調している。
関連論文リスト
- Exploring Semantic-constrained Adversarial Example with Instruction Uncertainty Reduction [51.50282796099369]
本稿では,多次元命令の不確実性低減フレームワークを開発し,意味論的に制約された逆の例を生成する。
言語誘導サンプリングプロセスの予測により、設計したResAdv-DDIMサンプルにより最適化プロセスが安定化される。
セマンティック制約付き3次元逆数例の参照フリー生成を初めて実現した。
論文 参考訳(メタデータ) (2025-10-27T04:02:52Z) - DeLeaker: Dynamic Inference-Time Reweighting For Semantic Leakage Mitigation in Text-to-Image Models [55.30555646945055]
テキスト・ツー・イメージ(T2I)モデルはセマンティック・リークに対して脆弱である。
DeLeakerは、モデルのアテンションマップに直接介入することで、漏洩を緩和する軽量なアプローチである。
SLIMはセマンティックリークに特化した最初のデータセットである。
論文 参考訳(メタデータ) (2025-10-16T17:39:21Z) - Knowledge Collapse in LLMs: When Fluency Survives but Facts Fail under Recursive Synthetic Training [2.094557609248011]
大規模な言語モデルは、人間が書き込んだコンテンツの不足のために、合成データにますます依存している。
モデル生成出力に対する再帰的なトレーニングは、事実の信頼性を脅かす退化過程であるモデル崩壊につながる。
論文 参考訳(メタデータ) (2025-09-05T04:29:15Z) - Model-Agnostic Sentiment Distribution Stability Analysis for Robust LLM-Generated Texts Detection [23.153044933861988]
大規模言語モデル(LLM)生成テキストを検出するためのモデルに依存しないフレームワークであるSentiDetectを提案する。
本手法は, LLM出力が感情的一貫したパターンを示す傾向を示すのに対して, 人文テキストの方が感情的多様性が高いという経験的観察に動機付けられている。
我々は,Gemini-1.5-Pro,Claude-3,GPT-4-0613,LLaMa-3.3を含む5種類の多種多様なLLMを用いてSentiDetectを評価した。
論文 参考訳(メタデータ) (2025-08-09T09:55:47Z) - Assessing Representation Stability for Transformer Models [2.41710192205034]
代用テキスト攻撃はトランスフォーマーモデルに対する永続的な脅威である。
本稿では,モデル・アバーサ検出フレームワークであるRepresentation Stability (RS)を紹介する。
RSは、重要な単語がマスクされたときに、埋め込み表現がどのように変化するかを測定する。
論文 参考訳(メタデータ) (2025-08-06T21:07:49Z) - Model Hemorrhage and the Robustness Limits of Large Language Models [119.46442117681147]
大規模言語モデル(LLM)は、自然言語処理タスク全体で強力なパフォーマンスを示すが、デプロイメント用に修正された場合、大幅なパフォーマンス低下を経験する。
この現象をモデル出血(パラメータ変更とアーキテクチャ変更によるパフォーマンス低下)と定義する。
論文 参考訳(メタデータ) (2025-03-31T10:16:03Z) - Estimating Commonsense Plausibility through Semantic Shifts [66.06254418551737]
セマンティックシフトを測定することでコモンセンスの妥当性を定量化する新しい識別フレームワークであるComPaSSを提案する。
2種類の細粒度コモンセンス可視性評価タスクの評価は,ComPaSSが一貫してベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2025-02-19T06:31:06Z) - Semantic Sensitivities and Inconsistent Predictions: Measuring the
Fragility of NLI Models [44.56781176879151]
State-of-the-art Natural Language Inference (NLI)モデルは、表面形状の変化を保存するマイナーセマンティクスに敏感である。
セマンティックな感度は、平均$textbfin-$と$textbfout-of-$ドメイン設定よりも平均$12.92%と$23.71%のパフォーマンス劣化を引き起こす。
論文 参考訳(メタデータ) (2024-01-25T14:47:05Z) - Improving Adversarial Robustness to Sensitivity and Invariance Attacks
with Deep Metric Learning [80.21709045433096]
対向ロバスト性の標準的な方法は、サンプルを最小に摂動させることによって作られたサンプルに対して防御する枠組みを仮定する。
距離学習を用いて、最適輸送問題として逆正則化をフレーム化する。
予備的な結果から, 変分摂動の規則化は, 変分防御と敏感防御の両方を改善することが示唆された。
論文 参考訳(メタデータ) (2022-11-04T13:54:02Z) - CLINE: Contrastive Learning with Semantic Negative Examples for Natural
Language Understanding [35.003401250150034]
本稿では,事前学習した言語モデルの堅牢性を改善するために,セマントIc負例を用いたコントラスト学習を提案する。
CLINEは、意味論的敵対攻撃下での堅牢性を改善するために、教師なしの意味論的ネガティブな例を構築している。
実験結果から,本手法は感情分析,推論,読解作業において大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2021-07-01T13:34:12Z) - Fundamental Tradeoffs between Invariance and Sensitivity to Adversarial
Perturbations [65.05561023880351]
敵の例は誤分類を引き起こすために作られた悪意のある入力である。
本稿では, 相補的障害モード, 不変性に基づく逆数例について検討する。
感度に基づく攻撃に対する防御は、不変性に基づく攻撃に対するモデルの精度を積極的に損なうことを示す。
論文 参考訳(メタデータ) (2020-02-11T18:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。