論文の概要: Taking Shortcuts for Categorical VQA Using Super Neurons
- arxiv url: http://arxiv.org/abs/2603.10781v1
- Date: Wed, 11 Mar 2026 13:54:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.97745
- Title: Taking Shortcuts for Categorical VQA Using Super Neurons
- Title(参考訳): 超ニューロンを用いたカテゴリーVQAのショートカット
- Authors: Pierre Musacchio, Jaeyi Jeong, Dahun Kim, Jaesik Park,
- Abstract要約: SAV(Sparse Attention Vectors)は、視覚言語モデル(VLM)の性能向上のために、教師付き微調整や低ランク適応に代わる優れたトレーニング不要の代替品として登場した。
我々は,VLMの生活性化をスカラー値として直接探索することで,多様な視覚的な下流タスクにおいて正確な分類器が得られることを見出した。
注意ベクトルからスカラーアクティベーションへ焦点を移すと、正確なパラメータの探索空間が劇的に増加し、第1生成トークンからより識別性の高いニューロンを見つけることができる。
- 参考スコア(独自算出の注目度): 34.74441491228218
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse Attention Vectors (SAVs) have emerged as an excellent training-free alternative to supervised finetuning or low-rank adaptation to improve the performance of Vision Language Models (VLMs). At their heart, SAVs select a few accurate attention heads for a task of interest and use them as classifiers, rather than relying on the model's prediction. In a similar spirit, we find that directly probing the raw activations of the VLM, in the form of scalar values, is sufficient to yield accurate classifiers on diverse visually grounded downstream tasks. Shifting focus from attention vectors to scalar activations dramatically increases the search space for accurate parameters, allowing us to find more discriminative neurons immediately from the first generated token. We call such activations Super Neurons (SNs). In this probing setting, we discover that enough SNs appear in the shallower layers of the large language model to allow for extreme early exiting from the first layer of the model at the first generated token. Compared to the original network, SNs robustly improve the classification performance while achieving a speedup of up to 5.10x.
- Abstract(参考訳): SAV(Sparse Attention Vectors)は、視覚言語モデル(VLM)の性能を向上させるために、教師付き微調整や低ランク適応に優れた訓練のない代替品として登場した。
彼らの心では、SAVは、モデルの予測に頼るのではなく、興味のあるタスクのためにいくつかの正確な注意ヘッドを選択し、それらを分類子として使用する。
同様の精神では、VLMの生活性化を直接スカラー値として探すだけで、様々な視覚的な下流タスクにおいて正確な分類器が得られることが分かる。
注意ベクトルからスカラーアクティベーションへ焦点を移すと、正確なパラメータの探索空間が劇的に増加し、第1生成トークンからより識別性の高いニューロンを見つけることができる。
このような活性化をスーパーニューロン(SN)と呼ぶ。
この探索設定では、大言語モデルの浅い層に十分なSNが出現し、第1生成トークンにおいてモデルの第一層から極端に早期に脱出できるようにする。
従来のネットワークと比較して、SNは最大5.10倍のスピードアップを達成しながら、分類性能をしっかりと改善した。
関連論文リスト
- Non-Contrastive Vision-Language Learning with Predictive Embedding Alignment [12.336161969869567]
分布正規化を伴う共同埋め込み予測に基づくNOn-contrastive Vision-Language AlignmentフレームワークであるNOVAを紹介する。
テキストエンコーダとしてCeriorBERTとMIMIC-CXRでスクラッチからトレーニングしたビジョントランスフォーマーを用いて,ゼロショット胸部X線分類におけるNOVAの評価を行った。
本研究は,非コントラスト的視覚言語事前学習が,コントラスト的手法よりもシンプルで,より安定的で,より効果的な代替手段を提供することを示す。
論文 参考訳(メタデータ) (2026-01-31T10:57:46Z) - Features that Make a Difference: Leveraging Gradients for Improved Dictionary Learning [4.051777802443125]
スパースオートエンコーダ(SAE)は、ニューラルネットワーク表現を抽出するための有望なアプローチである。
我々は、TopKアクティベーション関数を増強することにより、$k$-sparseのオートエンコーダアーキテクチャを変更するGradient SAEを紹介する。
g-SAEが任意の文脈でモデルを操る上で平均的に効果的である潜伏者を学ぶ証拠が見つかる。
論文 参考訳(メタデータ) (2024-11-15T18:03:52Z) - A Primal-Dual Framework for Transformers and Neural Networks [52.814467832108875]
自己注意は、シーケンスモデリングタスクにおけるトランスフォーマーの顕著な成功の鍵である。
自己アテンションは、支持ベクトル回帰問題から導かれる支持ベクトル展開に対応することを示す。
Batch Normalized Attention (Attention-BN) と Scaled Head (Attention-SH) の2つの新しい注意点を提案する。
論文 参考訳(メタデータ) (2024-06-19T19:11:22Z) - Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - Noise-Tolerant Few-Shot Unsupervised Adapter for Vision-Language Models [8.59772105902647]
NtUAは、雑音耐性のない教師なし適応器で、非競合なターゲットサンプルをほとんど持たない効果的なターゲットモデルの学習を可能にする。
NtUAは、視覚的特徴を定式化したキー値キャッシュとして機能し、少数の未ラベルのターゲットサンプルの擬似ラベルをキー値ペアとして予測する。
NtUAは、広く採用されている複数のベンチマークにおいて、一貫して優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-09-26T13:35:31Z) - TOAST: Transfer Learning via Attention Steering [77.83191769502763]
現在の伝達学習法は、しばしばタスク関連機能に焦点をあてることに失敗する。
タスク固有の特徴に注意を向ける新しい伝達学習アルゴリズムであるTop-Down Attention Steering(TOAST)を紹介する。
TOASTは、さまざまなきめ細かい視覚分類データセットのパフォーマンスを大幅に改善する。
論文 参考訳(メタデータ) (2023-05-24T20:03:04Z) - Rethinking Nearest Neighbors for Visual Classification [56.00783095670361]
k-NNは、トレーニングセット内のテストイメージとトップk隣人間の距離を集約する遅延学習手法である。
我々は,教師付き手法と自己監督型手法のいずれでも,事前学習した視覚表現を持つk-NNを2つのステップで採用する。
本研究は,幅広い分類タスクに関する広範な実験により,k-NN統合の汎用性と柔軟性を明らかにした。
論文 参考訳(メタデータ) (2021-12-15T20:15:01Z) - Train your classifier first: Cascade Neural Networks Training from upper
layers to lower layers [54.47911829539919]
我々は,高品質な分類器を探索するアルゴリズムとして見ることのできる,新しいトップダウン学習手法を開発した。
本研究では,自動音声認識(ASR)タスクと言語モデリングタスクについて検討した。
提案手法は,Wall Street Journal 上でのリカレントニューラルネットワーク ASR モデル,Switchboard 上での自己注意型 ASR モデル,WikiText-2 上での AWD-LSTM 言語モデルなど,一貫して改善されている。
論文 参考訳(メタデータ) (2021-02-09T08:19:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。