論文の概要: GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs
- arxiv url: http://arxiv.org/abs/2507.18043v1
- Date: Thu, 24 Jul 2025 02:34:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:42.909236
- Title: GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs
- Title(参考訳): GrAInS:LLMとVLMの推論時間ステアリングにおけるグラディエントベース属性
- Authors: Duy Nguyen, Archiki Prasad, Elias Stengel-Eskin, Mohit Bansal,
- Abstract要約: GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
- 参考スコア(独自算出の注目度): 56.93583799109029
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inference-time steering methods offer a lightweight alternative to fine-tuning large language models (LLMs) and vision-language models (VLMs) by modifying internal activations at test time without updating model weights. However, most existing approaches rely on fixed, global intervention vectors, overlook the causal influence of individual input tokens, and fail to leverage informative gradients from the model's logits, particularly in multimodal settings where visual and textual inputs contribute unevenly. To address these limitations, we introduce GrAInS, an inference-time steering approach that operates across both language-only and vision-language models and tasks. GrAInS uses contrastive, gradient-based attribution via Integrated Gradients to identify the top-k most influential tokens, both positively and negatively attributed based on their contribution to preferred versus dispreferred outputs. These tokens are then used to construct directional steering vectors that capture semantic shifts from undesirable to desirable behavior. During inference, GrAInS adjusts hidden activations at transformer layers guided by token-level attribution signals, and normalizes activations to preserve representational scale. This enables fine-grained, interpretable, and modular control over model behavior, without retraining or auxiliary supervision. Empirically, GrAInS consistently outperforms both fine-tuning and existing steering baselines: it achieves a 13.22% accuracy gain on TruthfulQA using Llama-3.1-8B, reduces hallucination rates on MMHal-Bench from 0.624 to 0.514 with LLaVA-1.6-7B, and improves alignment win rates on SPA-VL by 8.11%, all while preserving the model's fluency and general capabilities.
- Abstract(参考訳): 推論時ステアリング手法は、モデル重みを更新することなくテスト時に内部アクティベーションを変更することで、細調整された大言語モデル(LLM)と視覚言語モデル(VLM)の軽量な代替手段を提供する。
しかし、既存のほとんどのアプローチは固定されたグローバルな介入ベクトルに依存し、個々の入力トークンの因果的影響を見落とし、特に視覚的およびテキスト的入力が不均一に寄与するマルチモーダルな設定において、モデルのロジットからの情報的勾配を利用することができない。
これらの制約に対処するため、GrAInSという推論時ステアリング手法を導入し、言語のみのモデルと視覚言語モデルの両方で機能する。
GrAInSは、インテグレート・グラディエント(Integrated Gradients)による対照的な勾配に基づく属性を使用して、上位kの最も影響力のあるトークンを識別する。
これらのトークンは、望ましくない振る舞いから望ましい振る舞いへのセマンティックシフトをキャプチャする指向性ステアリングベクターを構築するために使用される。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠れたアクティベーションを調整し、表現スケールを維持するためにアクティベーションを正規化する。
これにより、トレーニングや補助的な監督なしに、モデル動作のきめ細かい、解釈可能な、モジュール化された制御が可能になる。
Llama-3.1-8B を用いて TruthfulQA の13.22% の精度向上を実現し、MMHal-Bench の幻覚率を LLaVA-1.6-7B で 0.624 から 0.514 に下げ、SPA-VL のアライメント勝利率を 8.11% 改善し、モデルの流速と一般的な能力を保った。
関連論文リスト
- Beyond Fully Supervised Pixel Annotations: Scribble-Driven Weakly-Supervised Framework for Image Manipulation Localization [11.10178274806454]
アノテーションの効率と検出性能を向上させる弱監督方式を提案する。
我々は、スクリブルラベルでメインストリームのMLデータセットを再注釈し、最初のスクリブルベースのMLデータセットを提案する。
モデルが一貫した予測を生成することを奨励するために,構造的整合性を損なう自己教師型トレーニングを採用する。
論文 参考訳(メタデータ) (2025-07-17T11:45:27Z) - Steering Conceptual Bias via Transformer Latent-Subspace Activation [0.0]
本研究では,言語モデル(LLM)における潜在部分空間の活性化が,特定のプログラミング言語に対して科学的コード生成を促進できるかどうかを検討する。
C++ または CPP トークンに対して最も活性の高い静的重みを摂動させるニューロンの寄与法は脆く、限定的な一般化を示した。
勾配調整型アダプティブアクティベーションステアリングフレームワーク(G-ACT)を開発した。
論文 参考訳(メタデータ) (2025-06-23T17:56:34Z) - Normalized Attention Guidance: Universal Negative Guidance for Diffusion Models [57.20761595019967]
注意空間にL1をベースとした正規化・精細化を施した,効率的かつトレーニング不要な機構である正規化注意誘導(NAG)を提案する。
NAGは、CFGが忠実性を維持しながら崩壊する効果的な負のガイダンスを復元する。
NAGはアーキテクチャ(UNet、DiT)、サンプリングレシスタンス(複数ステップ、複数ステップ)、モダリティ(イメージ、ビデオ)をまたいで一般化する
論文 参考訳(メタデータ) (2025-05-27T13:30:46Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - Guiding Giants: Lightweight Controllers for Weighted Activation Steering in LLMs [3.2361985831403404]
アクティベーションステアリングは、推論時間制御の代替を提供する。
推論中に軽量でトレーニング可能なコントローラネットワークを組み込んだ新しい手法を提案する。
論文 参考訳(メタデータ) (2025-05-22T01:48:38Z) - Shifting Perspectives: Steering Vector Ensembles for Robust Bias Mitigation in LLMs [8.91107152198979]
本稿では,大規模言語モデル(LLM)において,前方通過におけるモデルアクティベーションの修正にステアリングベクトルを適用することにより,バイアス軽減手法を提案する。
ベイズ最適化を用いて、9つのバイアス軸にまたがる効果的な対照的なペアデータセットを体系的に同定する。
これらの有望な結果に基づいて、複数の個別に最適化されたステアリングベクトルを平均化する手法であるステアリングベクトルアンサンブル(SVE)を導入し、それぞれが年齢、人種、性別などの特定のバイアス軸をターゲットにしている。
論文 参考訳(メタデータ) (2025-03-07T12:25:29Z) - Steering Large Language Model Activations in Sparse Spaces [21.55545768931058]
AIアライメントにおける重要な課題は、テスト時に望ましい振る舞いに従うために、大きな言語モデル(LLM)を導くことである。
スパース・アクティベーション・ステアリング(SAS)はスパース・オートエンコーダ(SAE)を利用してスパース空間のステアリングを行う手法である。
論文 参考訳(メタデータ) (2025-02-28T20:43:45Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - Augmenting Interpretable Models with LLMs during Training [73.40079895413861]
本稿では,効率よく解釈可能なモデルを構築するための拡張解釈モデル (Aug-imodels) を提案する。
Aug-imodel は、フィッティング時に LLM を使用するが、推論中に使用せず、完全な透明性を実現する。
自然言語処理におけるAug-imodelのインスタンス化について検討する: (i) Aug-GAM, (ii) Aug-Tree, (ii) LLM機能拡張による決定木の拡大。
論文 参考訳(メタデータ) (2022-09-23T18:36:01Z) - Generalized Zero-Shot Learning via VAE-Conditioned Generative Flow [83.27681781274406]
一般化されたゼロショット学習は、意味的記述から視覚的表現へ知識を移すことによって、目に見えないクラスと見えないクラスの両方を認識することを目的としている。
近年のGZSLはデータ不足問題として定式化されており、主にGANやVAEを採用して、目に見えないクラスの視覚的特徴を生成する。
GZSLのための条件付き生成フロー,すなわちVAE-Conditioned Generative Flow (VAE-cFlow)を提案する。
論文 参考訳(メタデータ) (2020-09-01T09:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。