論文の概要: Derailing Non-Answers via Logit Suppression at Output Subspace Boundaries in RLHF-Aligned Language Models
- arxiv url: http://arxiv.org/abs/2505.23848v1
- Date: Wed, 28 May 2025 20:25:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.566669
- Title: Derailing Non-Answers via Logit Suppression at Output Subspace Boundaries in RLHF-Aligned Language Models
- Title(参考訳): RLHF対応言語モデルにおける出力部分空間境界における対数抑制による非解答のデライリング
- Authors: Harvey Dam, Jonas Knochelmann, Vinu Joseph, Ganesh Gopalakrishnan,
- Abstract要約: モデル重みやプロンプトを変更することなく、センシティブなコンテンツに対する大言語モデル(LLM)の拒絶率を低減する手法を提案する。
特定のモデルの拒絶は、しばしばトークンの特定のトークンシーケンスによってもたらされた、という観察によって動機づけられた。
この結果から, 退避行動は, 生成過程の特定の点において, 退避部分空間をブロックすることによって回避できる可能性が示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a method to reduce refusal rates of large language models (LLMs) on sensitive content without modifying model weights or prompts. Motivated by the observation that refusals in certain models were often preceded by the specific token sequence of a token marking the beginning of the chain-of-thought (CoT) block (<think>) followed by a double newline token (\n\n), we investigate the impact of two simple formatting adjustments during generation: suppressing \n\n after <think> and suppressing the end-of-sequence token after the end of the CoT block (</think>). Our method requires no datasets, parameter changes, or training, relying solely on modifying token probabilities during generation. In our experiments with official DeepSeek-R1 distillations, these interventions increased the proportion of substantive answers to sensitive prompts without affecting performance on standard benchmarks. Our findings suggest that refusal behaviors can be circumvented by blocking refusal subspaces at specific points in the generation process.
- Abstract(参考訳): モデル重みやプロンプトを変更することなく、センシティブなコンテンツに対する大言語モデル(LLM)の拒絶率を低減する手法を提案する。
また,特定のモデルにおける拒絶は,チェーン・オブ・シークレット(CoT)ブロックの開始を示すトークンの特定のトークンシーケンス ((<think>) とダブル・ライントークン (\n\n) に先行する傾向にあり,生成中の2つの単純なフォーマット調整の影響について検討した。
我々の手法は、生成中にトークンの確率を変更することのみに依存するため、データセット、パラメータの変更、トレーニングを必要としない。
公式なDeepSeek-R1蒸留実験において、これらの介入は標準ベンチマークのパフォーマンスに影響を与えることなく、感度の高いプロンプトに対する実質的な回答の割合を増加させた。
この結果から, 退避行動は, 生成過程の特定の点において, 退避部分空間をブロックすることによって回避できる可能性が示唆された。
関連論文リスト
- Normalized Attention Guidance: Universal Negative Guidance for Diffusion Model [57.20761595019967]
注意空間にL1をベースとした正規化・精細化を施した,効率的かつトレーニング不要な機構である正規化注意誘導(NAG)を提案する。
NAGは、CFGが忠実性を維持しながら崩壊する効果的な負のガイダンスを復元する。
NAGはアーキテクチャ(UNet、DiT)、サンプリングレシスタンス(複数ステップ、複数ステップ)、モダリティ(イメージ、ビデオ)をまたいで一般化する
論文 参考訳(メタデータ) (2025-05-27T13:30:46Z) - Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは 違法にコストがかかる
LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。
我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-07T18:30:18Z) - (G)I-DLE: Generative Inference via Distribution-preserving Logit Exclusion with KL Divergence Minimization for Constrained Decoding [0.0]
(G)I-DLEは、KLの発散を利用して自己回帰言語モデルの固有条件確率分布を保存する制約付き復号法である。
我々はK2-Evalデータセット上で,韓国語の流布度を評価するために,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2025-03-23T12:37:14Z) - Non-Halting Queries: Exploiting Fixed Points in LLMs [4.091772241106195]
我々は、自動回帰モデルの固定点を利用して、決して停止しないクエリを作成する新しい脆弱性を導入します。
非半減期異常が出現する条件を厳密に分析する。
ベースアンアライメントモデルで実施された多くの実験において,非ハーフティングクエリを実演する。
論文 参考訳(メタデータ) (2024-10-08T18:38:32Z) - AdjointDPM: Adjoint Sensitivity Method for Gradient Backpropagation of Diffusion Probabilistic Models [103.41269503488546]
既存のカスタマイズ方法は、事前訓練された拡散確率モデルをユーザが提供する概念に合わせるために、複数の参照例にアクセスする必要がある。
本論文は、DPMカスタマイズの課題として、生成コンテンツ上で定義された差別化可能な指標が唯一利用可能な監督基準である場合に解決することを目的とする。
本稿では,拡散モデルから新しいサンプルを初めて生成するAdjointDPMを提案する。
次に、随伴感度法を用いて、損失の勾配をモデルのパラメータにバックプロパゲートする。
論文 参考訳(メタデータ) (2023-07-20T09:06:21Z) - Mitigating the Learning Bias towards Repetition by Self-Contrastive
Training for Open-Ended Generation [92.42032403795879]
GPT2のような事前訓練された言語モデル(LM)は、繰り返しテキストを生成する傾向にあることを示す。
トークンレベルの反復確率の過大評価は学習バイアスに起因している。
LMは文レベルの繰り返しループの原因となる非繰り返しトークンよりも長い範囲依存を用いて繰り返しトークンを予測する。
論文 参考訳(メタデータ) (2023-07-04T07:53:55Z) - Explicit Regularization in Overparametrized Models via Noise Injection [14.492434617004932]
簡単な有限次元モデルに対して、小さな摂動が明示的な正則化をもたらすことを示す。
実験により,小摂動がバニラ勾配降下訓練よりも一般化性能の向上につながることが示された。
論文 参考訳(メタデータ) (2022-06-09T17:00:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。