論文の概要: Precise Attribute Intensity Control in Large Language Models via Targeted Representation Editing
- arxiv url: http://arxiv.org/abs/2510.12121v1
- Date: Tue, 14 Oct 2025 03:50:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.180409
- Title: Precise Attribute Intensity Control in Large Language Models via Targeted Representation Editing
- Title(参考訳): ターゲット表現編集による大規模言語モデルの精度属性インテンシティ制御
- Authors: Rongzhi Zhang, Liqin Ye, Yuzhao Heng, Xiang Chen, Tong Yu, Lingkai Kong, Sudheer Chava, Chao Zhang,
- Abstract要約: 我々は,属性強度を正確に制御するLarge Language Model (LLM) の出力をユーザ定義の属性強度で改善する。
提案手法では, 属性強度の微粒化と連続制御が可能であり, 単純な方向アライメントを超えて移動することができる。
LLaMA-3.2-3b と Phi-4-mini の実験により,ユーザの属性強度に高い精度でテキスト生成を行うことができることを確認した。
- 参考スコア(独自算出の注目度): 32.186130247144774
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Precise attribute intensity control--generating Large Language Model (LLM) outputs with specific, user-defined attribute intensities--is crucial for AI systems adaptable to diverse user expectations. Current LLM alignment methods, however, typically provide only directional or open-ended guidance, failing to reliably achieve exact attribute intensities. We address this limitation with three key designs: (1) reformulating precise attribute intensity control as a target-reaching problem, rather than simple maximization; (2) training a lightweight value function via temporal-difference learning to predict final attribute intensity scores from partial generations, thereby steering LLM outputs; and (3) employing gradient-based interventions on hidden representations to navigate the model precisely towards specific attribute intensity targets. Our method enables fine-grained, continuous control over attribute intensities, moving beyond simple directional alignment. Experiments on LLaMA-3.2-3b and Phi-4-mini confirm our method's ability to steer text generation to user-specified attribute intensities with high accuracy. Finally, we demonstrate efficiency enhancements across three downstream tasks: preference data synthesis, Pareto frontier approximation and optimization, and distillation of aligned behaviors for intervention-free inference. Our code is available on https://github.com/Pre-Control/pre-control
- Abstract(参考訳): 正確な属性強度制御-LLM(Large Language Model)出力を特定の、ユーザ定義の属性強度で生成する。
しかしながら、現在のLCMアライメント法は、通常は方向またはオープンなガイダンスのみを提供し、正確な属性強度を確実に達成することができない。
この制限は,(1)単純な最大化ではなく,目標到達問題としての高精度属性強度制御の修正,(2)時間差分学習による軽量値関数のトレーニング,(2)部分的な世代からの最終的な属性強度スコアの予測,(3)隠蔽表現への勾配に基づく介入を用いて,特定の属性強度目標に向かって正確にモデルをナビゲートする,という3つの重要な設計で対処する。
提案手法では, 属性強度の微粒化と連続制御が可能であり, 単純な方向アライメントを超えて移動することができる。
LLaMA-3.2-3b と Phi-4-mini の実験により,ユーザの属性強度に高い精度でテキスト生成を行うことができることを確認した。
最後に、選好データ合成、パレートフロンティア近似と最適化、干渉のない推論のための整列挙動の蒸留という3つの下流タスクの効率向上を実証する。
私たちのコードはhttps://github.com/Pre-Control/pre-controlで利用可能です。
関連論文リスト
- GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - R-Sparse: Rank-Aware Activation Sparsity for Efficient LLM Inference [77.47238561728459]
R-スパース(R-Sparse)は、高度なLCMにおいて高い疎度を達成できる訓練不要なアクティベーション・スパシティ・アプローチである。
10種類のタスクにわたるLlama-2/3およびMistralモデルの実験は、R-Sparseが50%のモデルレベルの間隔で同等のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-04-28T03:30:32Z) - SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining [62.433137130087445]
SuperFlow++は、連続するカメラペアを使用して事前トレーニングと下流タスクを統合する新しいフレームワークである。
SuperFlow++は様々なタスクや運転条件で最先端のメソッドよりも優れています。
強力な一般化性と計算効率により、SuperFlow++は、自動運転におけるデータ効率の高いLiDARベースの認識のための新しいベンチマークを確立する。
論文 参考訳(メタデータ) (2025-03-25T17:59:57Z) - Multi-Attribute Steering of Language Models via Targeted Intervention [56.93583799109029]
推論時間介入(ITI)は,大規模言語モデル(LLM)の振る舞いを特定の方向に操るための有望な手法として登場した。
マルチ属性・ターゲットステアリング(MAT-Steer)は,複数の属性をまたいだトークンレベルの選択的介入を目的とした,新しいステアリングフレームワークである。
論文 参考訳(メタデータ) (2025-02-18T02:27:23Z) - X2-DFD: A framework for eXplainable and eXtendable Deepfake Detection [55.77552681618732]
X2-DFDは、eXplainableおよびeXtendableフレームワークであり、ディープフェイク検出のためのマルチモーダルな多言語モデル(MLLM)に基づいている。
最初の段階であるモデル特徴評価は、MLLMの偽造関係の特徴の検出可能性を体系的に評価する。
2番目のステージであるExplainable dataset Constructionは、Strong Feature StrengtheningとWeak Feature Supplementingの2つの重要なモジュールで構成されている。
3番目のステージであるファインチューニングと推論では、構築されたデータセット上でMLLMを微調整し、最終的な検出と説明のためにデプロイする。
論文 参考訳(メタデータ) (2024-10-08T15:28:33Z) - Evaluating the Smooth Control of Attribute Intensity in Text Generation with LLMs [36.89780636600556]
大規模言語モデル(LLM)はテキスト生成に革命をもたらした。
生成したテキストの属性強度の範囲,キャリブレーション,一貫性を評価する指標を提案する。
論文 参考訳(メタデータ) (2024-06-06T19:35:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。