論文の概要: Activation Steering for Masked Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2512.24143v1
- Date: Tue, 30 Dec 2025 11:10:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.362221
- Title: Activation Steering for Masked Diffusion Language Models
- Title(参考訳): マスク拡散言語モデルにおけるアクティベーションステアリング
- Authors: Adi Shnaidman, Erin Feiglin, Osher Yaari, Efrat Mentel, Amit Levi, Raz Lapid,
- Abstract要約: マスケ拡散言語モデルは反復的復調過程を通じてテキストを生成する。
本稿では,MDLMのためのアクティベーションステアリングフレームワークを提案する。
LLaDA-8B-Instructの実験では、高レベル属性の信頼性変調が示されている。
- 参考スコア(独自算出の注目度): 1.0980666029958932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked diffusion language models (MDLMs) generate text through an iterative denoising process. They have recently gained attention due to mask-parallel decoding and competitive performance with autoregressive large language models. However, effective mechanisms for inference-time control and steering in MDLMs remain largely unexplored. We present an activation-steering framework for MDLMs that computes layer-wise steering vectors from a single forward pass using contrastive examples, without simulating the denoising trajectory. These directions are applied at every reverse-diffusion step, yielding an efficient inference-time control mechanism. Experiments on LLaDA-8B-Instruct demonstrate reliable modulation of high-level attributes, with ablations examining the effects of steering across transformer sub-modules and token scope (prompt vs.\ response).
- Abstract(参考訳): 仮面拡散言語モデル (MDLM) は反復的復調過程を通じてテキストを生成する。
彼らは最近、マスク並列デコーディングと自動回帰型大規模言語モデルとの競合性能によって注目を集めている。
しかし、MDLMの推論時間制御とステアリングの効果的なメカニズムはほとんど解明されていない。
本稿では,1つの前方パスから層方向のステアリングベクトルを計算するMDLMのアクティベーションステアリングフレームワークを提案する。
これらの方向は逆拡散ステップ毎に適用され、効率的な推論時間制御機構が得られる。
LLaDA-8B-Instructの実験は、トランスフォーマーサブモジュールとトークンスコープ(prompt vs。
反応)。
関連論文リスト
- A Comprehensive Study on Visual Token Redundancy for Discrete Diffusion-based Multimodal Large Language Models [85.30893355216486]
我々は,異なるdMLLMアーキテクチャとタスクを用いて,視覚的トークン冗長性がどのように進化するかを検討する。
本研究により, 視覚的冗長性は, 長時間のタスクを処理しながら, オフスクラッチdMLLMでのみ現れることが明らかとなった。
層スキッピングはAR-to-diffusion dMLLMの加速に有効であるのに対し、プログレッシブプルーニングやレイトステッププルーニングはストクラッチdMLLMよりも効果的である。
論文 参考訳(メタデータ) (2025-11-19T04:13:36Z) - SteerVLM: Robust Model Control through Lightweight Activation Steering for Vision Language Models [4.506695482619111]
本研究は、VLM(Vision-Language Models)のための軽量ステアリングモジュールであるSteerVLMを紹介する。
提案手法は,言語モダリティと画像コンテキストを接続するアクティベーションを動的に調整するために,ターゲットと逆動作を符号化するペアプロンプトの潜伏埋め込みから学習する。
我々の操舵モジュールは、元のVLMの大きさの0.14%に相当する学習パラメータを必要とする。
論文 参考訳(メタデータ) (2025-10-30T17:52:39Z) - Prototype-Based Dynamic Steering for Large Language Models [3.90727941420584]
Prototype-Based Dynamic Steering (PDS) は、命令の追加や変更なしに大きな言語モデル(LLM)推論を増幅するテスト時メソッドである。
本稿では,CoT (Chain-of-Thought) と中性プロンプトのクラスタリングアクティベーション差による「推論プロトタイプ」を提案する。
PDSは微調整やプロンプトエンジニアリングなしで精度を継続的に改善する。
論文 参考訳(メタデータ) (2025-10-07T01:34:28Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - Denoising Concept Vectors with Sparse Autoencoders for Improved Language Model Steering [41.588589098740755]
線形概念ベクトルはLLMを効果的に操るが、既存の手法はステアリングの堅牢性を損なう多様なデータセットのノイズの多い特徴に悩まされる。
Sparse Autoencoder-Denoized Concept Vectors (SDCV) を提案する。
論文 参考訳(メタデータ) (2025-05-21T02:45:11Z) - LF-Steering: Latent Feature Activation Steering for Enhancing Semantic Consistency in Large Language Models [16.37602070339033]
LLM(Large Language Models)は、意味的に等価なパラフレーズ入力によって、しばしば一貫性のない応答を生成する。
セマンティック不整合の原因となる潜在特徴表現を正確に識別する新しいアクティベーションステアリング手法LF-ステアリングを提案する。
本手法は, 関連トランス層の隠蔽状態をスパースオートエンコーダに基づいて, 疎活性化された高次元特徴空間にマッピングする。
論文 参考訳(メタデータ) (2025-01-19T13:06:51Z) - Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction [88.65168366064061]
本稿では,確率論的推論の課題として,事前学習したMDMを操る作業を行う新しいフレームワークであるDDPPを紹介する。
私たちのフレームワークは、3つの新しい目標のファミリーにつながります。
Wet-lab Validation(ウェット・ラブ・バリデーション)を用いて,報酬最適化タンパク質配列の過渡的発現を観察する。
論文 参考訳(メタデータ) (2024-10-10T17:18:30Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - Diffusion-LM Improves Controllable Text Generation [80.50044830018442]
言語モデル(LM)の振る舞いを再学習せずに制御することは、自然言語生成において大きな問題である。
拡散-LMと呼ばれる連続拡散に基づく非自己回帰型言語モデルを開発した。
本研究では,6つのきめ細粒度制御タスクに対してDiffusion-LMの制御に成功したことを実証した。
論文 参考訳(メタデータ) (2022-05-27T20:12:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。