論文の概要: Activation Steering of Video Generation Models via Reduced-Order Linear Optimal Control
- arxiv url: http://arxiv.org/abs/2606.04775v1
- Date: Wed, 03 Jun 2026 11:58:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.726105
- Title: Activation Steering of Video Generation Models via Reduced-Order Linear Optimal Control
- Title(参考訳): 低次線形最適制御による映像生成モデルの活性化ステアリング
- Authors: Jihoon Hong, Alice Chan, Qiyue Dai, Julian Skifstad, Glen Chou,
- Abstract要約: アクティベーションステアリングは、ファインチューニングやプロンプトフィルタリングに代わる魅力的な機構を提供する。
Latent Activation Linear-Quadratic Regulator (LA-LQR) は最小侵襲T2Vステアリングのための低次最適制御フレームワークである。
LA-LQRはT2V推論を力学系として定式化し、閉ループフィードバックの介入を計算する。
- 参考スコア(独自算出の注目度): 3.3394856680250284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-video (T2V) models trained on large-scale web data can generate undesired content, motivating interventions that reduce harmful outputs without sacrificing visual quality. Activation steering offers an attractive mechanistic alternative to finetuning and prompt filtering, but existing T2V steering methods remain limited, typically applying coarse, non-anticipative interventions that can lead to oversteering and content degradation. To close this gap, we propose Latent Activation Linear-Quadratic Regulator (LA-LQR), a reduced-order optimal control framework for minimally invasive T2V steering. LA-LQR formulates T2V inference as a dynamical system and computes closed-loop feedback interventions that steer activations toward desired feature setpoints while penalizing unnecessary perturbations. To make optimal control feasible for high-dimensional video activations, we project activations onto a low-dimensional, task-relevant subspace derived from contrastive prompt pairs, estimate local linear dynamics in this latent space, and solve a latent LQR problem to obtain timestep- and layer-specific steering signals. We provide theoretical bounds relating latent setpoint tracking to raw activation-space feature control, and empirically validate the fidelity of the reduced latent dynamics. On concept steering and video safety benchmarks, LA-LQR reduces unsafe generations relative to baselines, while preserving prompt fidelity and visual quality.
- Abstract(参考訳): 大規模なWebデータに基づいてトレーニングされたテキスト・ツー・ビデオ(T2V)モデルは、望ましくないコンテンツを生成し、視覚的品質を犠牲にすることなく有害な出力を減らすための介入を動機付ける。
アクティベーションステアリングはファインチューニングやプロンプトフィルタリングに代わる魅力的な機構を提供するが、既存のT2Vステアリング法は限定的であり、通常は粗い非予想的な介入を適用し、オーバーステアリングやコンテンツ劣化を引き起こす。
このギャップを埋めるため,最小侵襲T2Vステアリングのための低次最適制御フレームワークであるLA-LQRを提案する。
LA-LQRは、T2V推論を力学系として定式化し、不必要な摂動を罰しながら、所望の特徴セットポイントに向けて活性化を操るクローズドループフィードバックの介入を計算する。
高次元映像のアクティベーションに最適な制御を実現するため、コントラスト的なプロンプトペアから導かれる低次元タスク関連部分空間にアクティベーションを投影し、この潜時空間における局所線形ダイナミクスを推定し、潜時LQR問題を解き、時間ステップと層固有のステアリング信号を得る。
本稿では,潜在集合点追跡と生のアクティベーション空間の特徴制御に関する理論的バウンダリを提供し,低減された潜在動特性の忠実さを実証的に検証する。
コンセプトステアリングとビデオ安全性ベンチマークでは、LA-LQRはベースラインに対する安全でない世代を減らし、迅速な忠実さと視覚的品質を保っている。
関連論文リスト
- MAPLE: Latent Multi-Agent Play for End-to-End Autonomous Driving [62.43744546817599]
視覚言語-アクション(VLA)モデルは、エンドツーエンドのモーションプランナーとして有効であるが、クローズドループ設定で評価すると不安定である。
本稿では, VLAモデルの潜在空間における動的駆動シナリオの, リアクティブでマルチエージェントなロールアウトのための新しいフレームワークMAPLEを提案する。
MAPLEはBench2Driveで最先端の駆動性能を実現し、堅牢なE2E自動運転システムのためのスケーラブルでクローズループなマルチエージェントプレイを実演する。
論文 参考訳(メタデータ) (2026-05-13T23:35:14Z) - SoLAR: Error-Resilient Streamable Long-Horizon Free-Viewpoint Video Reconstruction with Anchor Activation and Latent Recalibration [57.159190580279585]
ビット割り当て理論により、速度歪み最適化フレームワーク内で動的アンカーベースのボリュームビデオ表現を解析する。
我々は,長いシーケンスの復元品質を安定的に維持する,エラー回復性の最初のFVVフレームワークである textbfSoLAR を提案する。
論文 参考訳(メタデータ) (2026-05-08T06:48:59Z) - Local Linearity of LLMs Enables Activation Steering via Model-Based Linear Optimal Control [2.752817022620644]
推論時間LLMアライメント法は、生成中のアクティベーションを直接修正することで、微調整の代替となる。
複数のLLMアーキテクチャとスケールの層ワイドダイナミクスが局所線形モデルによってよく近似されていることを示す。
我々は, ステアリング性能の正式な保証を可能にするために, セットポイント追従誤差の理論的境界を導出する。
論文 参考訳(メタデータ) (2026-04-21T03:09:46Z) - DA-PTQ: Drift-Aware Post-Training Quantization for Efficient Vision-Language-Action Models [61.26694413585136]
DA-PTQ (Drift-Aware Post-Training Quantization) は、逐次決定過程に対するドリフト-アウェア最適化問題として量子化を定式化する。
DA-PTQはキネマティックドリフトを著しく低減し、低ビット設定下での完全精度モデルに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2026-04-13T14:51:43Z) - Beyond Imitation: Constraint-Aware Trajectory Generation with Flow Matching For End-to-End Autonomous Driving [18.239343348322134]
本稿では,制約付きフローマッチングを利用する新しい計画フレームワークであるCATGを提案する。
CatGは、本質的にモード崩壊を引き起こすフローマッチングプロセスを明示的にモデル化する。
CatGは、生成中の運転攻撃性を制御信号としてパラメータ化し、軌道スタイルの正確な操作を可能にする。
論文 参考訳(メタデータ) (2025-10-30T09:24:34Z) - Zero-shot 3D-Aware Trajectory-Guided image-to-video generation via Test-Time Training [27.251232052868033]
Trajectory-Guided Image-to-Video (I2V) 生成は、ユーザが指定した動画を合成することを目的としている。
Zo3Tは軌道制御されたI2V生成における3次元リアリズムと運動精度を著しく向上させる。
論文 参考訳(メタデータ) (2025-09-08T14:21:45Z) - SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration [70.72227437717467]
VLA(Vision-Language-Action)モデルは、その強力な制御能力に注目が集まっている。
計算コストが高く、実行頻度も低いため、ロボット操作や自律ナビゲーションといったリアルタイムタスクには適さない。
本稿では,共同スケジューリングモデルとプルーニングトークンにより,VLAモデルを高速化する統一フレームワークSP-VLAを提案する。
論文 参考訳(メタデータ) (2025-06-15T05:04:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。