論文の概要: Silent Tokens, Loud Effects: Padding in LLMs
- arxiv url: http://arxiv.org/abs/2510.01238v2
- Date: Mon, 06 Oct 2025 12:48:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 14:28:10.96645
- Title: Silent Tokens, Loud Effects: Padding in LLMs
- Title(参考訳): 静かなトーケンとラウドエフェクト:LLMのパディング
- Authors: Rom Himelstein, Amit LeVi, Yonatan Belinkov, Avi Mendelson,
- Abstract要約: パディングトークンは、バッチ推論中にシーケンス長を等化するために、大きな言語モデルで広く使われている。
完全にマスクされているべきであるが、実装エラーは計算に影響を与え、この影響の程度はよく理解されていない。
我々はこの効果を3つのオープンソースモデルファミリー(Llama, Gemma, Qwen)で体系的に研究する。
少数のパディングシフトでも、隠れた表現、小さなモデルの品質の低下、予測不可能な方法で偏見の変化、安全ガードレールの弱さなどがあった。
- 参考スコア(独自算出の注目度): 33.96330728628167
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Padding tokens are widely used in large language models (LLMs) to equalize sequence lengths during batched inference. While they should be fully masked, implementation errors can cause them to influence computation, and the extent of this influence is not well understood. We systematically study this effect across three open-source model families (Llama, Gemma, Qwen), inserting controlled amounts of padding and evaluating outcomes along four axes: activations, generation quality, bias, and safety. Even small amounts of padding shift hidden representations, degrade quality in smaller models, alter bias in unpredictable ways, and weaken safety guardrails. These findings demonstrate that padding is not a harmless detail but a robustness risk that must be carefully handled in deployment.
- Abstract(参考訳): パディングトークンは、バッチ推論中にシーケンス長を等化するために、大きな言語モデル(LLM)で広く使われている。
完全にマスクされているべきであるが、実装エラーは計算に影響を与え、この影響の程度はよく理解されていない。
我々はこの効果を3つのオープンソースモデルファミリー(Llama, Gemma, Qwen)で体系的に研究し、制御されたパディング量を挿入し、アクティベーション、生成品質、バイアス、安全性の4つの軸に沿って結果を評価する。
少数のパディングシフトでも、隠れた表現、小さなモデルの品質の低下、予測不可能な方法で偏見の変化、安全ガードレールの弱さなどがあった。
これらの結果は、パディングは無害な詳細ではなく、配置において慎重に扱う必要があるロバスト性リスクであることを示している。
関連論文リスト
- DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - One Trigger Token Is Enough: A Defense Strategy for Balancing Safety and Usability in Large Language Models [20.42976162135529]
大規模言語モデル(LLM)は、仮想アシスタント、自動コード生成、科学研究など、さまざまな領域で広く使われている。
我々は,与えられた安全対応LLMの安全トリガトークンを識別し,明示的に復号する,シンプルで効果的な防衛アルゴリズムであるtextttD-STT を提案する。
論文 参考訳(メタデータ) (2025-05-12T01:26:50Z) - Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models? [83.53005932513155]
MLLM(Multi-modal large language model)は大きな進歩を遂げているが、その安全性は依然として限られている。
そこで我々は, 単純明快な拒絶文に代えて, 少数の良性命令追従データに対して, MLLMを微調整する手法を提案する。
論文 参考訳(メタデータ) (2025-04-14T09:03:51Z) - Exploiting LLM Quantization [6.506984021742173]
量子化は、大きな言語モデルのメモリ使用量を減らす技術である。
本研究では, 広く利用されている量子化法を用いて, 有害な量子化LDMを生成できることを述べる。
実際には、敵はHugging FaceのようなLLMコミュニティハブで、結果の完全精度モデルをホストすることができた。
論文 参考訳(メタデータ) (2024-05-28T12:51:01Z) - Advancing the Robustness of Large Language Models through Self-Denoised Smoothing [50.54276872204319]
大規模言語モデル(LLM)は大きな成功を収めたが、敵の摂動に対する脆弱性は大きな懸念を引き起こしている。
本稿では,LLMのマルチタスク特性を活用して,まずノイズの入力を識別し,次にこれらの復号化バージョンに基づいて予測を行う。
LLMのロバスト性を高めるために個別のモデルを訓練する必要がある従来のコンピュータビジョンのスムース化技術とは異なり、本手法は効率と柔軟性を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T15:47:00Z) - Emulated Disalignment: Safety Alignment for Large Language Models May Backfire! [65.06450319194454]
大きな言語モデル(LLM)は、人間との安全な会話を確保するために安全アライメントを行う。
本稿では,安全アライメントの反転が可能なトレーニングフリーアタック手法を提案する。
本手法をエミュレートした脱アライメント (ED) と呼ぶのは, このコントラスト分布からのサンプリングは, 安全報酬を最小限に抑えるため, 微調整の結果を確実にエミュレートするからである。
論文 参考訳(メタデータ) (2024-02-19T18:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。