論文の概要: One-shot Optimized Steering Vector for Hallucination Mitigation for VLMs
- arxiv url: http://arxiv.org/abs/2601.23041v1
- Date: Fri, 30 Jan 2026 14:47:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.508291
- Title: One-shot Optimized Steering Vector for Hallucination Mitigation for VLMs
- Title(参考訳): VLMの幻覚緩和のためのワンショット最適化ステアリングベクトル
- Authors: Youxu Shi, Suorong Yang, Dong Liu,
- Abstract要約: 視覚言語モデル(VLM)は、マルチモーダルタスクにおいて高いパフォーマンスを達成するが、まだ幻覚や安全関連の障害に悩まされている。
textbf1-shot textbfSteering with textbfGenerative textbfAnchorは、単一の最適化インスタンスでモデル性能を改善するための、入力に依存しないフレームワークである。
- 参考スコア(独自算出の注目度): 8.089908150148554
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Language Models (VLMs) achieve strong performance on multimodal tasks but still suffer from hallucination and safety-related failures that persist even at scale. Steering offers a lightweight technique to improve model performance. However, steering, whether input-dependent or input-independent, achieves a meaningful trade-off between efficiency and effectiveness. In this work, we observe that steering vectors can generalize across inputs when tasks share aligned semantic intent. Based on this insight, we propose \textbf{OSGA} (\textbf{O}ne-shot \textbf{S}teering with \textbf{G}enerative \textbf{A}nchor), an input-independent framework that improves model performance with a single optimization instance. OSGA first selects an informative sample via a variance-based data selection strategy and learns a single steering vector with a contrastive objective with generative anchor regularization. The resulting vector can be universally applied at a certain layer during inference time without modifying model parameters. Experiments across multiple benchmarks show that a single OSGA-optimized steering vector consistently improves hallucination mitigation and safety enhancement with negligible overhead, highlighting one-shot steering as a practical and scalable solution for reliable VLMs.
- Abstract(参考訳): 視覚言語モデル(VLM)は、マルチモーダルタスクにおいて高いパフォーマンスを達成するが、大規模でも持続する幻覚や安全性関連の障害に悩まされている。
Steeringは、モデルパフォーマンスを改善するための軽量なテクニックを提供する。
しかし、入力非依存でも入力非依存であれ、ステアリングは効率と有効性の間に有意義なトレードオフをもたらす。
本研究では,タスクがアライメントされたセマンティックインテントを共有する場合,ステアリングベクトルが入力全体にわたって一般化可能であることを観察する。
この知見に基づいて,単一最適化インスタンスを用いてモデル性能を向上させる入力独立型フレームワークである \textbf{OSGA} (\textbf{O}ne-shot \textbf{S}teering with \textbf{G}enerative \textbf{A}nchor を提案する。
OSGAは、まず、分散ベースのデータ選択戦略を介して情報サンプルを選択し、生成アンカー正規化による対照的な目的を持つ単一のステアリングベクトルを学習する。
結果として得られるベクトルは、モデルパラメータを変更することなく、推論時間中に特定の層に普遍的に適用することができる。
複数のベンチマークで実験したところ、単一のOSGA最適化ステアリングベクターは、信頼性の高いVLMのための実用的でスケーラブルなソリューションとしてワンショットステアリングを強調して、幻覚の緩和と安全性の向上を無視できないオーバーヘッドで一貫して改善している。
関連論文リスト
- AMPS: Adaptive Modality Preference Steering via Functional Entropy [66.69992693275061]
本稿では,各モータリティの情報提供量を定量化し,ステアリングに対するサンプル固有の感受性を明らかにするインスタンス認識診断指標を提案する。
実験結果から, インスタンス認識のステアリングは, 従来のステアリングよりもモダリティの嗜好の調整に優れていたことが示唆された。
論文 参考訳(メタデータ) (2026-02-13T02:29:06Z) - OmniVL-Guard: Towards Unified Vision-Language Forgery Detection and Grounding via Balanced RL [63.388513841293616]
既存の偽造検出手法は、現実世界の誤報に多いインターリーブされたテキスト、画像、ビデオを扱うのに失敗する。
このギャップを埋めるため,本論文では,オムニバス・ビジョン言語による偽造検出と接地のための統一フレームワークの開発を目標としている。
我々は、OmniVL-Guardという、オムニバス視覚言語による偽造検出と接地のためのバランスの取れた強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-11T09:41:36Z) - Why Steering Works: Toward a Unified View of Language Model Parameter Dynamics [81.80010043113445]
局所的な微調整、LoRAに基づく適応、およびアクティベーションに基づく介入を分離して研究する。
制御信号によって誘導される動的ウェイト更新として、これらの介入をフレーム化する統一的な視点を示す。
提案手法では,選択と効用との間に一貫したトレードオフが観測される。
論文 参考訳(メタデータ) (2026-02-02T17:04:36Z) - Steering Vector Fields for Context-Aware Inference-Time Control in Large Language Models [12.506018278890862]
本稿では,各アクティベーションにおける操舵方向を局所勾配で定義した,微分可能な概念スコアリング関数を提案する。
この定式化は、共有された整列された概念空間における協調した多層干渉をサポートする。
複数の言語モデル全体で、SVFはより強く信頼性の高い制御を提供し、推論時ステアリングの実用性を改善している。
論文 参考訳(メタデータ) (2026-02-02T05:14:42Z) - Controllable-LPMoE: Adapting to Challenging Object Segmentation via Dynamic Local Priors from Mixture-of-Experts [16.21786310193235]
制御可能LPMoEと呼ばれる、トレーニング可能なパラメータが少ない新しい動的事前学習パラダイムを提案する。
入力画像から多種多様な局所前駆体を異種畳み込みによりキャプチャする軽量な動的混合局所前駆体抽出器を構築した。
また、コサインアラインな変形性アテンションとチャネル指向適応スケールエンハンスメントを利用した双方向インタラクションアダプタを設計する。
論文 参考訳(メタデータ) (2025-10-24T03:03:59Z) - Align-Then-stEer: Adapting the Vision-Language Action Models through Unified Latent Guidance [63.33213516925946]
textbfAlign-Then-stEer(textttATE)は,新しいデータ効率,プラグアンドプレイ適応フレームワークである。
我々の研究は、新しいロボットプラットフォームやタスクにVLAモデルをデプロイする実用性を大幅に向上させる、汎用的で軽量なソリューションを提供する。
論文 参考訳(メタデータ) (2025-09-02T07:51:59Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - Shifting Perspectives: Steering Vectors for Robust Bias Mitigation in LLMs [8.91107152198979]
本稿では,大規模言語モデル(LLM)において,前方通過におけるモデルアクティベーションの修正にステアリングベクトルを適用することにより,バイアス軽減手法を提案する。
我々は、BBQデータセットのトレーニングサブセット上で、それぞれ異なる社会的バイアス軸に対応する8つのステアリングベクトルを計算し、これらの有効性を4つのデータセットにまたがる3つのバイアス緩和手法と比較する。
BBQデータセットに最適化すると、個別に調整されたステアリングベクトルは、BBQで12.8%、CLEAR-Biasで8.3%、StereoSetで1%の平均的な改善が達成される。
論文 参考訳(メタデータ) (2025-03-07T12:25:29Z) - One-shot Optimized Steering Vectors Mediate Safety-relevant Behaviors in LLMs [21.2431937128876]
本稿では,1つのトレーニング例に基づいて,勾配降下によるステアリングベクトルの最適化を提案する。
その結果,複数モデルにおける安全関連挙動を効果的に処理できることが判明した。
の作業を拡張し、脆弱なコードを書くためにモデルに最適化されたSVがモデルに有害な応答をもたらすことを示す。
論文 参考訳(メタデータ) (2025-02-26T06:13:01Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - Multi-Task Model Merging via Adaptive Weight Disentanglement [69.7292615212444]
モデルマージのための適応重み分散法を提案する。
余剰ベクトルの抽出に成功し, 減算後, タスクベクトルは頑健な性能を維持した。
論文 参考訳(メタデータ) (2024-11-27T20:08:55Z) - Debias your Large Multi-Modal Model at Test-Time via Non-Contrastive Visual Attribute Steering [17.16208123951812]
大規模マルチモーダルモデル(LMM)のための学習自由脱バイアスフレームワークを提案する。
我々のフレームワークは、保護された属性に対する参照を減らすステアリングベクトルを構築することによって、テキスト生成中のモデルの表現に介入する。
実験の結果,これらの介入は,感情や流布を維持しつつ,保護属性に関連するテキストを生成するLMMの妥当性を効果的に低下させることが示唆された。
論文 参考訳(メタデータ) (2024-11-15T20:06:09Z) - Personalized Steering of Large Language Models: Versatile Steering Vectors Through Bi-directional Preference Optimization [34.05163996072159]
人選好データのアクティベーションから「ステアリングベクトル」を抽出する。
この研究は、双方向の選好最適化によってより効果的なステアリングベクトルを生み出すことができる革新的なアプローチを提案する。
提案手法は, ステアリングベクトルが人間の嗜好データペアの生成確率に直接影響を与えるように設計されている。
論文 参考訳(メタデータ) (2024-05-28T05:10:40Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - Self-Guided Adaptation: Progressive Representation Alignment for Domain
Adaptive Object Detection [86.69077525494106]
非教師なしドメイン適応(UDA)は、オブジェクト検出モデルのドメイン間ロバスト性を改善するために前例のない成功を収めた。
既存のUDA手法は、モデル学習中の瞬間的なデータ分布を無視しており、大きなドメインシフトによって特徴表現が劣化する可能性がある。
本稿では、特徴表現の整合とドメイン間のオブジェクト検出モデルの転送を目標とする自己ガイド適応モデルを提案する。
論文 参考訳(メタデータ) (2020-03-19T13:30:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。