論文の概要: Correcting Suppressed Log-Probabilities in Language Models with Post-Transformer Adapters
- arxiv url: http://arxiv.org/abs/2604.14174v1
- Date: Wed, 25 Mar 2026 16:27:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.698782
- Title: Correcting Suppressed Log-Probabilities in Language Models with Post-Transformer Adapters
- Title(参考訳): 変換器後アダプタを用いた言語モデルにおける対数確率の補正
- Authors: Bryan Sanchez,
- Abstract要約: ポストトランスフォーマーアダプタは、Qwen3-4B, 8B, 14Bで31個のイデオロギーを識別する事実の抑制を補正する。
アダプタは15のトレーニング事実をすべて記憶し、スケール毎に5つのランダムスプリットにわたる16のホールドアウト事実の11~39%に一般化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Alignment-tuned language models frequently suppress factual log-probabilities on politically sensitive topics despite retaining the knowledge in their hidden representations. We show that a 786K-parameter (approximately 0.02% of the base model) post-transformer adapter, trained on frozen hidden states, corrects this suppression on 31 ideology-discriminating facts across Qwen3-4B, 8B, and 14B. The adapter memorizes all 15 training facts and generalizes to 11--39% of 16 held-out facts across 5 random splits per scale, with zero knowledge regressions via anchored training. Both gated (SwiGLU) and ungated (linear bottleneck) adapters achieve comparable results; neither consistently outperforms the other (Fisher exact p > 0.09 at all scales). On instruct models, the adapter corrects log-probability rankings. When applied at all token positions during generation, the adapter produces incoherent output; however, when applied only at the current prediction position (last-position-only), the adapter produces coherent, less censored text. A logit-space adapter operating after token projection fails to produce coherent generation at any application mode, suggesting hidden-state intervention is the correct level for generation correction. A previously undocumented silent gradient bug in Apple MLX explains all null results in earlier iterations of this work: the standard pattern nn.value_and_grad(model, fn)(model.parameters()) returns zero gradients without error; the correct pattern nn.value_and_grad(model, fn)(model, data) resolves this. We provide a minimal reproduction and discuss implications for other adapter research using MLX.
- Abstract(参考訳): 調整調整言語モデルは、隠された表現の知識を維持しながら、政治的に敏感なトピックの事実対数確率をしばしば抑制する。
凍結した隠れ状態に基づいて訓練された786Kパラメーター(ベースモデルの約0.02%)のポストトランスフォーマーアダプタは、Qwen3-4B, 8B, 14Bの31個のイデオロギー識別事実に対して、この抑制を補正する。
アダプタは15のトレーニング事実をすべて記憶し、スケール毎に5つのランダムスプリットにまたがる16の保持された事実の11~39%に一般化する。
ゲート (SwiGLU) とアンゲート (線形ボトルネック) の両方のアダプタは同等の結果を得るが、どちらも同等ではない(全てのスケールにおいて正確な p > 0.09 である)。
インストラクションモデルでは、アダプタはログ確率ランキングを補正する。
生成中に全てのトークン位置に適用すると、アダプタは非一貫性の出力を生成するが、現在の予測位置(ラストポジションのみ)でのみ適用されると、このアダプタはコヒーレントで検閲の少ないテキストを生成する。
トークンプロジェクション後に動作するロジトスペースアダプタは、任意のアプリケーションモードでコヒーレント生成を生成できないため、隠れ状態の介入が生成訂正の正しいレベルであることを示唆している。
標準パターン nn.value_and_grad(model, fn)(model.parameters()) はエラーなしでゼロ勾配を返す; 正しいパターン nn.value_and_grad(model, fn)(model, data) はこの問題を解決する。
我々は最小限の複製を提供し、MLXを用いた他のアダプタ研究の意義について議論する。
関連論文リスト
- AdapterTune: Zero-Initialized Low-Rank Adapters for Frozen Vision Transformers [1.0152838128195467]
本稿では,各トランスブロックを低ランクボトルネックで拡張するAdapterTuneを紹介する。
コア5データセット転送スイートでは、AdapterTuneは頭のみの転送よりも平均+14.9ポイントの精度を向上する。
完全なベンチマークで、AdapterTuneは、テストされたデータセットとバックボーンのペア毎に、ヘッドのみの転送を改善する。
論文 参考訳(メタデータ) (2026-03-16T01:29:26Z) - Transcoder Adapters for Reasoning-Model Diffing [28.090312772463253]
解釈可能な近似を学習する手法であるトランスコーダ計算を導入する。
トランスコーダアダプタを用いてQwen2.5-Math-7Bとその変種であるDeepSeek-R1-Di-Qwen-7Bの違いを特徴付ける。
論文 参考訳(メタデータ) (2026-02-24T13:40:28Z) - Learning Self-Interpretation from Interpretability Artifacts: Training Lightweight Adapters on Vector-Label Pairs [1.028001761831691]
自己解釈法は言語モデルに自身の内部状態を記述するよう促す。
本報告では,LMを完全に凍結する一方で,軽量アダプタの操作性を向上させることで,信頼性の高い自己解釈が得られることを示す。
論文 参考訳(メタデータ) (2026-02-10T22:50:02Z) - PrefixNLI: Detecting Factual Inconsistencies as Soon as They Arise [60.63315470285562]
MiniTruePrefixesは、テキストプレフィックスよりも事実上の矛盾をよりよく検出する、新しい特殊モデルである。
制御されたデコードフレームワークにMiniTruePrefixesを組み込むことで,抽象的な要約における現実の一貫性が大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-11-03T09:07:44Z) - BayesAdapter: enhanced uncertainty estimation in CLIP few-shot adaptation [30.435971066422706]
最先端のCLIPアダプタの識別性能は,その不確実性評価能力と必ずしも相関しないことを示す。
ベイズ推定を利用して1点ではなく全確率分布を推定するベイズアダプタを導入する。
本手法は, キャリブレーションと選択的分類において, 精度の高い不確実性推定値を得る。
論文 参考訳(メタデータ) (2024-12-12T20:48:06Z) - Test-Time Model Adaptation with Only Forward Passes [68.11784295706995]
テストタイム適応は、トレーニング済みのモデルを、潜在的に分布シフトのある未確認テストサンプルに適応させるのに有効であることが証明されている。
テスト時間フォワード最適化適応法(FOA)を提案する。
FOAは量子化された8ビットのViTで動作し、32ビットのViTで勾配ベースのTENTより優れ、ImageNet-Cで最大24倍のメモリ削減を実現する。
論文 参考訳(メタデータ) (2024-04-02T05:34:33Z) - PerAda: Parameter-Efficient Federated Learning Personalization with Generalization Guarantees [95.87604231887353]
既存のpFL手法は高い通信コストと計算コストをもたらすか、テスト通信に弱い。
PerAdaではパラメータ蒸留とpFL pFLが特に試験時間分布において優れた性能を示す。
私たちのコードはhttps://github.com/NV/PerAda.comで公開されています。
論文 参考訳(メタデータ) (2023-02-13T19:00:37Z) - Revisiting adapters with adversarial training [39.018061382248085]
クリーン入力と逆入力の併用学習においてバッチ統計を分離する必要はないことを示す。
アダプターを用いたトレーニングにより,クリーントークンと逆トークンを線形に組み合わせることで,モデルスープが実現可能であることを示す。
論文 参考訳(メタデータ) (2022-10-10T17:58:14Z) - Thutmose Tagger: Single-pass neural model for Inverse Text Normalization [76.87664008338317]
逆テキスト正規化(ITN)は自動音声認識において重要な後処理ステップである。
本稿では,ITN例の粒度アライメントに基づくデータセット作成手法を提案する。
タグと入力語との1対1対応により、モデルの予測の解釈性が向上する。
論文 参考訳(メタデータ) (2022-07-29T20:39:02Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。