論文の概要: Language models recognize dropout and Gaussian noise applied to their activations
- arxiv url: http://arxiv.org/abs/2604.17465v1
- Date: Sun, 19 Apr 2026 14:30:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.540581
- Title: Language models recognize dropout and Gaussian noise applied to their activations
- Title(参考訳): 言語モデルはそれらのアクティベーションに適用されるドロップアウトとガウスノイズを認識する
- Authors: Damiano Fornasiere, Mirko Bronzi, Spencer Kitts, Alessandro Palmas, Yoshua Bengio, Oliver Richardson,
- Abstract要約: 我々は, (a) アンフマスクのアクティベーションをシミュレートし, あるいは (b) アンフガウス雑音を付加する。
Llama、Olmo、Qwenファミリーのモデルをテストする。
- 参考スコア(独自算出の注目度): 74.06294367754748
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We provide evidence that language models can detect, localize and, to a certain degree, verbalize the difference between perturbations applied to their activations. More precisely, we either (a) \emph{mask} activations, simulating \emph{dropout}, or (b) add \emph{Gaussian noise} to them, at a target sentence. We then ask a multiple-choice question such as ``\emph{Which of the previous sentences was perturbed?}'' or ``\emph{Which of the two perturbations was applied?}''. We test models from the Llama, Olmo, and Qwen families, with sizes between 8B and 32B, all of which can easily detect and localize the perturbations, often with perfect accuracy. These models can also learn, when taught in context, to distinguish between dropout and Gaussian noise. Notably, \qwenb's \emph{zero-shot} accuracy in identifying which perturbation was applied improves as a function of the perturbation strength and, moreover, decreases if the in-context labels are flipped, suggesting a prior for the correct ones -- even modulo controls. Because dropout has been used as a training-regularization technique, while Gaussian noise is sometimes added during inference, we discuss the possibility of a data-agnostic ``training awareness'' signal and the implications for AI safety. The code and data are available at \href{https://github.com/saifh-github/llm-dropout-noise-recognition}{link 1} and \href{https://drive.google.com/file/d/1es-Sfw_AH9GficeXgeqpy87rocrZZ_PQ/view}{link 2}, respectively.
- Abstract(参考訳): 言語モデルが特定の程度において、アクティベーションに適用される摂動の差を検出、局所化、および言語化できるという証拠を提供する。
より正確に言えば、私たちはどちらかです。
a) \emph{mask} アクティベート、\emph{dropout} のシミュレート、または
b) ターゲット文で、それらに \emph{Gaussian noise} を追加する。
次に、前の文の ``\emph{Which のように、複数の選択を問う。
あるいは ``\emph{Which of the two perturbations was applied?
と書いた。
Llama、Olmo、Qwenファミリーのモデルをテストする。サイズは8Bから32Bで、摂動を検出・ローカライズできる。
これらのモデルはまた、文脈で教えられたとき、ドロップアウトとガウスノイズを区別するためにも学習することができる。
特に、どの摂動が適用されたかを特定するための \qwenb's \emph{zero-shot} の精度は摂動強度の関数として改善され、さらに、コンテキスト内ラベルがフリップされた場合も減少する。
ドロップアウトはトレーニング規則化手法として用いられてきたが、ガウスノイズは推論中に追加されることがあるため、データに依存しない「学習意識」信号の可能性とAI安全性への影響について論じる。
コードとデータは、それぞれ \href{https://github.com/saifh-github/llm-dropout-noise-recognition}{link 1} と \href{https://drive.google.com/file/d/1es-Sfw_AH9GficeXgeqpy87rocrZ_PQ/view}{link 2} で公開されている。
関連論文リスト
- Does Semantic Noise Initialization Transfer from Images to Videos? A Paired Diagnostic Study [0.7166401281812406]
時間結合は、テキスト・トゥ・ビデオ(T2V)生成において、余分な自由度と不安定性をもたらす可能性がある。
フリーズされたVideoCrafterスタイルのT2V拡散バックボーンと100プロンプト上のVBenchを用いて,標準ガウス雑音に対するセマンティックノイズ初期化をベンチマークする。
時間的関連次元について小さな正の傾向を観察するが、95%の信頼区間は0を含む(p0.17)。
論文 参考訳(メタデータ) (2026-03-03T07:36:07Z) - Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z) - UPLME: Uncertainty-Aware Probabilistic Language Modelling for Robust Empathy Regression [8.823417072582348]
共感回帰のための教師付き学習は、騒々しい自己報告の共感スコアによって挑戦される。
回帰設定におけるラベルノイズを捕捉する不確実性を考慮した確率的言語モデリングフレームワークUPLMEを提案する。
論文 参考訳(メタデータ) (2025-08-05T14:46:28Z) - Understanding the Effect of Noise in LLM Training Data with Algorithmic
Chains of Thought [0.0]
思考の連鎖におけるノイズが,高度に制御された環境下でのタスクパフォーマンスに与える影響について検討する。
本研究では,CoTトレース処理後に適用される局所的な雑音と,トレース処理時にエラーを伝播する大域的なノイズであるテクトダイナミックノイズの2種類を定義した。
微調整されたモデルでは、高レベルの静的ノイズに対して非常に頑健であるが、低レベルの動的ノイズに対してかなり苦労している。
論文 参考訳(メタデータ) (2024-02-06T13:59:56Z) - Label Noise: Correcting the Forward-Correction [0.0]
ラベルノイズのあるデータセット上でニューラルネットワーク分類器を訓練することは、ノイズのあるラベルに過度に適合するリスクをもたらす。
ラベルノイズによる過度適合に対処する手法を提案する。
本研究は, オーバーフィッティングを緩和するために, トレーニング損失に低い限界を課すことを提案する。
論文 参考訳(メタデータ) (2023-07-24T19:41:19Z) - A Second-Order Approach to Learning with Instance-Dependent Label Noise [58.555527517928596]
ラベルノイズの存在は、しばしばディープニューラルネットワークのトレーニングを誤解させる。
人間による注釈付きラベルのエラーは、タスクの難易度レベルに依存する可能性が高いことを示しています。
論文 参考訳(メタデータ) (2020-12-22T06:36:58Z) - Consistency Regularization for Certified Robustness of Smoothed
Classifiers [89.72878906950208]
最近のランダムな平滑化技術は、最悪の$ell$-robustnessを平均ケースのロバストネスに変換することができることを示している。
その結果,スムーズな分類器の精度と信頼性の高いロバスト性とのトレードオフは,ノイズに対する予測一貫性の規則化によって大きく制御できることが判明した。
論文 参考訳(メタデータ) (2020-06-07T06:57:43Z) - Towards Noise-resistant Object Detection with Noisy Annotations [119.63458519946691]
ディープオブジェクト検出器の訓練には、正確なオブジェクトラベルとバウンディングボックス座標を持つ、相当量の人間の注釈画像が必要である。
ノイズの多いアノテーションはずっと簡単にアクセスできますが、学習には有害かもしれません。
ノイズにはラベルノイズとバウンディングボックスノイズが混在している。
論文 参考訳(メタデータ) (2020-03-03T01:32:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。