論文の概要: ResiDual Transformer Alignment with Spectral Decomposition
- arxiv url: http://arxiv.org/abs/2411.00246v1
- Date: Thu, 31 Oct 2024 22:51:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:50:11.828943
- Title: ResiDual Transformer Alignment with Spectral Decomposition
- Title(参考訳): スペクトル分解による残留変圧器配向
- Authors: Lorenzo Basile, Valentino Maiorca, Luca Bortolussi, Emanuele Rodolà, Francesco Locatello,
- Abstract要約: 我々は、残像のスペクトル幾何学に着目し、視覚変換器の現象を解析する。
様々な入力データ分布にまたがる特殊な役割をエンコードしていることを示す。
本稿では,残流のスペクトルアライメント技術であるResiDualを紹介する。
- 参考スコア(独自算出の注目度): 31.14332778586179
- License:
- Abstract: When examined through the lens of their residual streams, a puzzling property emerges in transformer networks: residual contributions (e.g., attention heads) sometimes specialize in specific tasks or input attributes. In this paper, we analyze this phenomenon in vision transformers, focusing on the spectral geometry of residuals, and explore its implications for modality alignment in vision-language models. First, we link it to the intrinsically low-dimensional structure of visual head representations, zooming into their principal components and showing that they encode specialized roles across a wide variety of input data distributions. Then, we analyze the effect of head specialization in multimodal models, focusing on how improved alignment between text and specialized heads impacts zero-shot classification performance. This specialization-performance link consistently holds across diverse pre-training data, network sizes, and objectives, demonstrating a powerful new mechanism for boosting zero-shot classification through targeted alignment. Ultimately, we translate these insights into actionable terms by introducing ResiDual, a technique for spectral alignment of the residual stream. Much like panning for gold, it lets the noise from irrelevant unit principal components (i.e., attributes) wash away to amplify task-relevant ones. Remarkably, this dual perspective on modality alignment yields fine-tuning level performances on different data distributions while modeling an extremely interpretable and parameter-efficient transformation, as we extensively show on more than 50 (pre-trained network, dataset) pairs.
- Abstract(参考訳): 残差ストリームのレンズを通して調べると、ファズリング特性はトランスフォーマーネットワークに現れる: 残差コントリビューション(例えば、アテンションヘッド)は、特定のタスクや入力属性に特化することがある。
本稿では,この現象を視覚変換器で解析し,残差のスペクトル幾何学に着目し,視覚言語モデルにおけるモダリティアライメントの意義を考察する。
まず、視覚的頭部表現の内在的に低次元構造にリンクし、主成分を拡大し、様々な入力データ分布にまたがる特殊な役割をコード化することを示す。
そして,マルチモーダルモデルにおける頭部特殊化の効果を解析し,テキストと特殊頭部のアライメントの改善がゼロショット分類性能に与える影響に着目した。
この特殊化性能リンクは、様々な事前学習データ、ネットワークサイズ、目的を一貫して保持し、ターゲットアライメントを通じてゼロショット分類を強化する強力な新しいメカニズムを示す。
最終的に、残留ストリームのスペクトルアライメント技術であるResiDualを導入して、これらの知見を実行可能な用語に翻訳する。
金のパンニングと同様に、無関係な単位主成分(すなわち属性)からのノイズを洗い流してタスク関連成分を増幅する。
注目すべきは、このモジュラリティアライメントに対する双対的な視点は、50以上の(事前学習されたネットワーク、データセット)ペアに対して広範囲に示すように、極めて解釈可能なパラメータ効率の変換をモデル化しながら、異なるデータ分布上での微調整レベルのパフォーマンスをもたらすことである。
関連論文リスト
- DAPE V2: Process Attention Score as Feature Map for Length Extrapolation [63.87956583202729]
我々は特徴写像としての注意を概念化し、コンピュータビジョンにおける処理方法を模倣するために畳み込み演算子を適用した。
様々な注意関係のモデルに適応できる新しい洞察は、現在のTransformerアーキテクチャがさらなる進化の可能性があることを示している。
論文 参考訳(メタデータ) (2024-10-07T07:21:49Z) - Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence [92.07601770031236]
本稿では,エンコーダのみのトランスフォーマーアーキテクチャのアテンションヘッドにおける意味的意味パターンについて検討する。
注意重みの修正はトレーニングプロセスの促進だけでなく,最適化の安定性の向上にも寄与する。
論文 参考訳(メタデータ) (2024-09-20T07:41:47Z) - Approaching Deep Learning through the Spectral Dynamics of Weights [41.948042468042374]
重みのスペクトル力学 -- 最適化中の特異値とベクトルの振る舞い -- は、ディープラーニングにおけるいくつかの現象を明確にし、統一する。
ConvNetによる画像分類,UNetsによる画像生成,LSTMによる音声認識,Transformersによる言語モデリングなど,さまざまな実験における最適化における一貫したバイアスを同定する。
論文 参考訳(メタデータ) (2024-08-21T17:48:01Z) - A Pure Transformer Pretraining Framework on Text-attributed Graphs [50.833130854272774]
グラフ構造を先行として扱うことで,特徴中心の事前学習の視点を導入する。
我々のフレームワークであるGraph Sequence Pretraining with Transformer (GSPT)はランダムウォークを通してノードコンテキストをサンプリングする。
GSPTはノード分類とリンク予測の両方に容易に適応でき、様々なデータセットで有望な経験的成功を示す。
論文 参考訳(メタデータ) (2024-06-19T22:30:08Z) - p-Laplacian Adaptation for Generative Pre-trained Vision-Language Models [10.713680139939354]
大きなコーパスで事前訓練された視覚言語モデル(VLM)は、下流のタスクで顕著な成功を収めている。
PETLはフル微調整の代替として注目されている。
グラフニューラルネットワーク(GNN)において,$p$-Laplacianメッセージパッシングを利用する新しいアダプタアーキテクチャである$p$-adapterを提案する。
論文 参考訳(メタデータ) (2023-12-17T05:30:35Z) - Hodge-Aware Contrastive Learning [101.56637264703058]
単純コンプレックスは、マルチウェイ依存によるデータのモデリングに有効である。
我々は、単純なデータを処理するための対照的な自己教師付き学習手法を開発した。
論文 参考訳(メタデータ) (2023-09-14T00:40:07Z) - DAT++: Spatially Dynamic Vision Transformer with Deformable Attention [87.41016963608067]
Deformable Attention Transformer (DAT++)を提案する。
DAT++は、85.9%のImageNet精度、54.5および47.0のMS-COCOインスタンスセグメンテーションmAP、51.5のADE20KセマンティックセグメンテーションmIoUで、様々なビジュアル認識ベンチマークで最先端の結果を達成している。
論文 参考訳(メタデータ) (2023-09-04T08:26:47Z) - Learning Diverse Features in Vision Transformers for Improved
Generalization [15.905065768434403]
視覚変換器(ViT)は、異なる注意頭を持つ頑丈で刺激的な特徴を抽出する傾向があることを示す。
このモジュラリティにより、分散シフト時の性能はテスト時に大幅に改善される。
本稿では,注目者の入力勾配の促進により,学習特徴の多様性と補完性をさらに向上する手法を提案する。
論文 参考訳(メタデータ) (2023-08-30T19:04:34Z) - Multi-scale Alternated Attention Transformer for Generalized Stereo
Matching [7.493797166406228]
両視野および単一視野におけるエピポーラ線の影響のバランスをとるために,Alternated Attention U-shaped Transformer (AAUformer) と呼ばれる簡易かつ高効率なネットワークを提案する。
他のモデルと比較して、我々のモデルはいくつかの主要な設計を持っている。
我々はいくつかの主流ステレオマッチングデータセットについて比較研究とアブレーション研究を行った。
論文 参考訳(メタデータ) (2023-08-06T08:22:39Z) - ViT-Calibrator: Decision Stream Calibration for Vision Transformer [49.60474757318486]
本稿では、一般的な視覚変換器の性能を高めるための、決定ストリームと呼ばれる新しいパラダイムを提案する。
異なるトークンと複数の次元の関連係数の相関関係を探索し,学習過程における情報伝達機構について光を当てた。
論文 参考訳(メタデータ) (2023-04-10T02:40:24Z) - Multi-Facet Clustering Variational Autoencoders [9.150555507030083]
画像などの高次元データは通常、クラスタリング可能な複数の興味深い特徴を特徴付ける。
MFCVAE(Multi-Facet Clustering Variational Autoencoders)を導入する。
MFCVAEは複数のクラスタリングを同時に学習し、完全に教師なしでエンドツーエンドで訓練されている。
論文 参考訳(メタデータ) (2021-06-09T17:36:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。