論文の概要: Sparse Visual Thought Circuits in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2603.25075v1
- Date: Thu, 26 Mar 2026 06:24:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.138213
- Title: Sparse Visual Thought Circuits in Vision-Language Models
- Title(参考訳): 視覚言語モデルにおけるスパース視覚思考回路
- Authors: Yunpeng Zhou,
- Abstract要約: 我々はQwen3-VL-8Bにおける疎視的思考回路の局所化とテストを行う因果パイプラインを開発した。
この層でSAEを訓練し、明示的な規則でタスク選択集合を構築し、精度とドリフトを定量化しながら推論時間スケーリングとアブレーションを行う。
- 参考スコア(独自算出の注目度): 2.5754366051855837
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse autoencoders (SAEs) improve interpretability in multimodal models, but it remains unclear whether SAE features form modular, composable units for reasoning-an assumption underlying many intervention-based steering methods. We test this modularity hypothesis and find it often fails: intervening on a task-selective feature set can modestly improve reasoning accuracy, while intervening on the union of two such sets reliably induces output drift (large unintended changes in predictions) and degrades accuracy, even under norm-matched perturbations. This non modular circuit interference is consistent with shared internal pathways where feature unions amplify activation shifts. We develop a reproducible causal pipeline to localize and test these sparse visual thought circuits in Qwen3-VL-8B. On a controlled synthetic benchmark with seven task types and three difficulty levels, linear probes identify a mid decoder locus for task type information. We train SAEs at this layer, construct task-selective sets via an explicit rule, and perform inference time scaling and ablation while quantifying accuracy and drift. Our findings-validated with bootstrapped subsamples and permutation controls, and replicated across multiple VLM families and five diverse datasets clarify the boundaries of SAE feature composability and provide a rigorous diagnostic framework for more reliable VLM control.
- Abstract(参考訳): スパースオートエンコーダ(SAE)はマルチモーダルモデルの解釈可能性を改善するが、多くの介入に基づくステアリング法の基礎となる仮定として、SAEの特徴がモジュラーで構成可能なユニットを形成するかどうかは不明である。
このモジュラリティ仮説を検証し、しばしば失敗する: タスク選択的特徴集合への介入は推論精度を適度に改善し、一方、そのような2つの集合の結合による介入は、正常に整合した摂動の下でも、出力ドリフト(大きな意図しない予測の変化)を確実に誘導し、精度を低下させる。
この非モジュラ回路干渉は、特徴結合が活性化シフトを増幅する共有内部経路と一致している。
Qwen3-VL-8Bでこれらの疎視的思考回路をローカライズ・テストするための再現可能な因果パイプラインを開発した。
7つのタスクタイプと3つの困難レベルを持つ制御された合成ベンチマークでは、線形プローブがタスクタイプ情報の中間デコーダ軌跡を特定する。
この層でSAEを訓練し、明示的な規則でタスク選択集合を構築し、精度とドリフトを定量化しながら推論時間スケーリングとアブレーションを行う。
自家製サブサンプルと置換制御を併用し,複数のVLMファミリーと5つの多様なデータセットに複製し,SAE機能構成性の境界を明らかにするとともに,より信頼性の高いVLM制御のための厳密な診断フレームワークを提供する。
関連論文リスト
- Steering and Rectifying Latent Representation Manifolds in Frozen Multi-modal LLMs for Video Anomaly Detection [52.5174167737992]
ビデオ異常検出(VAD)は、ビデオ内の異常事象を特定することを目的としている。
本稿では,MLLMに基づくVADを受動的に読み上げから内部表現を積極的に操り,修正するSteerVADを提案する。
本手法は、トレーニングデータの1%しか必要としないチューニングフリーアプローチにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2026-02-27T13:48:50Z) - PromptCD: Test-Time Behavior Enhancement via Polarity-Prompt Contrastive Decoding [85.22047087898311]
本稿では,より広範な拡張設定へのコントラストデコーディングを一般化するテスト時動作制御手法であるPolarity-Prompt Contrastive Decoding(PromptCD)を紹介する。
PromptCDは、目標行動のためのペアの正と負の導出プロンプトを構築し、望ましい結果を強化するためにモデル応答を対比する。
3H"アライメントの目的に関する実験では、一貫性と実質的な改善が示されている。
論文 参考訳(メタデータ) (2026-02-24T08:56:52Z) - Same Answer, Different Representations: Hidden instability in VLMs [65.36933543377346]
本稿では,内部埋め込みドリフト,スペクトル感度,構造的滑らかさを計測する表現認識・周波数認識評価フレームワークを提案する。
このフレームワークを,SEEDBench,MMMU,POPEデータセットを対象とする最新のビジョン言語モデル(VLM)に適用する。
論文 参考訳(メタデータ) (2026-02-06T12:24:26Z) - VSCOUT: A Hybrid Variational Autoencoder Approach to Outlier Detection in High-Dimensional Retrospective Monitoring [0.0]
VSCOUTは、高次元設定での振り返り(Phase I)監視のために設計された、配布不要のフレームワークである。
VSCOUTは、制御された偽アラームを維持しながら、特別な原因構造に対する優れた感度を実現する。
そのスケーラビリティ、分散柔軟性、レジリエンスは、AI対応環境でのリフレクションモデリングと異常検出の実用的で効果的な方法としてVSCOUTを位置づけている。
論文 参考訳(メタデータ) (2026-01-28T18:30:48Z) - When Domain Pretraining Interferes with Instruction Alignment: An Empirical Study of Adapter Merging in Medical LLMs [0.6345523830122167]
大規模言語モデルは、ドメイン適応と命令アライメントを組み合わせる際に驚くべきアダプタ干渉を示す。
医学LLMのための2段階のLORAパイプラインについて検討し、ドメイン指向事前トレーニング(PT)と教師付き微調整(SFT)を個別に訓練し、後にマージした。
論文 参考訳(メタデータ) (2026-01-26T10:54:06Z) - SALVE: Sparse Autoencoder-Latent Vector Editing for Mechanistic Control of Neural Networks [0.0]
SALVEは機械的解釈可能性とモデル編集を橋渡しするフレームワークである。
私たちは、監督なしでスパースでモデルネイティブな機能ベースを学びます。
Grad-FAM(英語版)によりこれらの特徴を検証した。
論文 参考訳(メタデータ) (2025-12-17T20:06:03Z) - Unsupervised Conformal Inference: Bootstrapping and Alignment to Control LLM Uncertainty [49.19257648205146]
生成のための教師なし共形推論フレームワークを提案する。
我々のゲートは、分断されたUPPよりも厳密で安定した閾値を提供する。
その結果は、ラベルのない、API互換の、テスト時間フィルタリングのゲートになる。
論文 参考訳(メタデータ) (2025-09-26T23:40:47Z) - CKAA: Cross-subspace Knowledge Alignment and Aggregation for Robust Continual Learning [80.18781219542016]
継続的学習(CL)は、シーケンシャルなタスクストリームから継続的に学習するAIモデルに権限を与える。
近年,パラメータ効率のよい微調整(PEFT)によるCL法が注目されている。
ミスリード型タスクIDに対するロバスト性を高めるために,クロスサブスペース・ナレッジアライメント・アグリゲーション(CKAA)を提案する。
論文 参考訳(メタデータ) (2025-07-13T03:11:35Z) - Steering Large Language Model Activations in Sparse Spaces [21.55545768931058]
AIアライメントにおける重要な課題は、テスト時に望ましい振る舞いに従うために、大きな言語モデル(LLM)を導くことである。
スパース・アクティベーション・ステアリング(SAS)はスパース・オートエンコーダ(SAE)を利用してスパース空間のステアリングを行う手法である。
論文 参考訳(メタデータ) (2025-02-28T20:43:45Z) - LF-Steering: Latent Feature Activation Steering for Enhancing Semantic Consistency in Large Language Models [16.37602070339033]
LLM(Large Language Models)は、意味的に等価なパラフレーズ入力によって、しばしば一貫性のない応答を生成する。
セマンティック不整合の原因となる潜在特徴表現を正確に識別する新しいアクティベーションステアリング手法LF-ステアリングを提案する。
本手法は, 関連トランス層の隠蔽状態をスパースオートエンコーダに基づいて, 疎活性化された高次元特徴空間にマッピングする。
論文 参考訳(メタデータ) (2025-01-19T13:06:51Z) - Unsupervised Controllable Generation with Self-Training [90.04287577605723]
GANによる制御可能な世代は依然として困難な研究課題である。
本稿では,自己学習を通じてジェネレータを制御する潜伏符号の分布を学習するための教師なしフレームワークを提案する。
我々のフレームワークは、変分オートエンコーダのような他の変種と比較して、より良い絡み合いを示す。
論文 参考訳(メタデータ) (2020-07-17T21:50:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。