論文の概要: Orthogonal Quadratic Complements for Vision Transformer Feed-Forward Networks
- arxiv url: http://arxiv.org/abs/2604.09709v1
- Date: Wed, 08 Apr 2026 02:04:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.617445
- Title: Orthogonal Quadratic Complements for Vision Transformer Feed-Forward Networks
- Title(参考訳): 視覚変換器フィードフォワードネットワークの直交2次補間
- Authors: Wang Zixian,
- Abstract要約: 視覚変換器のバイリニアフィードフォワード置換は精度を大幅に向上させるが、しばしば2階相互作用の強化とメインブランチに対する冗長性の増大という2つの効果を説明できる。
本稿では,二次的特徴が支配的な隠蔽表現によって獲得されていない情報にのみ寄与する相補的設計原理について考察する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent bilinear feed-forward replacements for vision transformers can substantially improve accuracy, but they often conflate two effects: stronger second-order interactions and increased redundancy relative to the main branch. We study a complementary design principle in which auxiliary quadratic features contribute only information not already captured by the dominant hidden representation. To this end, we propose Orthogonal Quadratic Complements (OQC), which construct a low-rank quadratic auxiliary branch and explicitly project it onto the orthogonal complement of the main branch before injection. We further study an efficient low-rank realization (OQC-LR) and gated extensions (OQC-static and OQC-dynamic). Under a parameter-matched Deep-ViT and CIFAR-100 protocol with a fixed penultimate residual readout, full OQC improves an AFBO baseline from 64.25 +/- 0.22 to 65.59 +/- 0.22, while OQC-LR reaches 65.52 +/- 0.25 with a substantially better speed-accuracy tradeoff. On TinyImageNet, the gated extension OQC-dynamic achieves 51.88 +/- 0.32, improving the baseline (50.45 +/- 0.21) by 1.43 points and outperforming all ungated variants. Mechanism analyses show near-zero post-projection auxiliary-main overlap together with improved representation geometry and class separation. The full family, including both ungated and gated variants, generalizes consistently across both datasets.
- Abstract(参考訳): 最近の視覚変換器の双方向フィードフォワード置換は精度を大幅に向上させるが、しばしば2階相互作用の強化とメインブランチに対する冗長性の増大という2つの効果を説明できる。
本稿では,二次的特徴が支配的な隠蔽表現によって獲得されていない情報にのみ寄与する相補的設計原理について考察する。
この目的のために、低ランク二次補助枝を構築し、射出前の主枝の直交補枝に明示的に投影する直交二次補体(OQC)を提案する。
さらに、効率的な低ランク化(OQC-LR)とゲート拡張(OQC-staticおよびOQC-dynamic)について検討する。
パラメータマッチングされたDeep-ViTおよびCIFAR-100プロトコルの下では、完全なOQCはAFBOベースラインを64.25 +/- 0.22から65.59 +/- 0.22に改善し、OQC-LRは65.52 +/- 0.25に到達し、速度精度は大幅に向上した。
TinyImageNetでは、ゲート拡張OQC-dynamicは51.88 +/- 0.32に達し、ベースライン(50.45 +/- 0.21)を1.43ポイント改善し、全てのアンゲート変種を上回る。
メカニズム解析は、表現幾何学とクラス分離の改善とともに、ほぼゼロの投射後補助主重なりを示す。
アンゲート型とゲート型の両方を含むフルファミリーは、両方のデータセットを一貫して一般化する。
関連論文リスト
- Multi-Frequency Local Plasticity for Visual Representation Learning [0.40048696135519796]
本研究では,視覚認識におけるエンドツーエンドの勾配に基づく表現学習の欠如を補う構造的アーキテクチャバイアスについて検討する。
i) 固定多周波ガボルのF=7並列ストリームへの分解, (ii) ヘビアンとオジャの更新と反ヘビアンデコリレーションによるストリーム内競合学習, (iii) 現代のホプフィールド検索にインスパイアされた連想メモリモジュール。
論文 参考訳(メタデータ) (2026-04-09T18:30:47Z) - BiRQA: Bidirectional Robust Quality Assessment for Images [49.74447451098852]
フル参照画像品質評価(FR IQA)は、画像圧縮、復元、生成モデリングにおいて重要である。
本稿では、双方向の多スケールピラミッド内で4つの高速補完特徴を処理するコンパクトFR IQA計量モデルであるBiRQAを提案する。
5つのパブリックFR IQAベンチマークでは、BiRQAは以前のSOTAモデルよりも3倍高速で動作しながら、以前の状態(SOTA)より優れ、あるいは一致している。
論文 参考訳(メタデータ) (2026-02-23T20:52:56Z) - Linear Differential Vision Transformer: Learning Visual Contrasts via Pairwise Differentials [34.77694214755808]
MHSA(Multi-Head Self-Attention)の代替品であるVCA(Visual-Contrast Attention)を導入する。
VCAは、O(N N C) から O(N n C) への理論複雑性を n N で減少させながら、識別の明示的な概念を注入する。
モジュールはDeiT-Tinyのバックボーンに0.3M以下のパラメータを追加し、追加のFLOPを必要とせず、完全にアーキテクチャに依存しない。
論文 参考訳(メタデータ) (2025-11-02T07:04:12Z) - Parameter-free entropy-regularized multi-view clustering with hierarchical feature selection [3.8015092217142237]
AMVFCM-U と AAMVFCM-U の2つの補完アルゴリズムを導入し、統一されたパラメータフリーフレームワークを提供する。
AAMVFCM-Uは最大97%の計算効率向上を実現し、次元を0.45%に減らし、重要なビューの組み合わせを自動的に識別する。
論文 参考訳(メタデータ) (2025-08-07T15:36:59Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - ParFormer: A Vision Transformer with Parallel Mixer and Sparse Channel Attention Patch Embedding [9.144813021145039]
本稿では、並列ミキサーとスパースチャネル注意パッチ埋め込み(SCAPE)を組み込んだ視覚変換器であるParFormerを紹介する。
ParFormerは、畳み込み機構とアテンション機構を組み合わせることで、特徴抽出を改善する。
エッジデバイスのデプロイメントでは、ParFormer-Tのスループットは278.1イメージ/秒で、EdgeNeXt-Sよりも1.38ドル高い。
より大型のParFormer-Lは83.5%のTop-1精度に達し、精度と効率のバランスの取れたトレードオフを提供する。
論文 参考訳(メタデータ) (2024-03-22T07:32:21Z) - Adaptive Split-Fusion Transformer [90.04885335911729]
本稿では,適応重みによる畳み込みと注目の分岐を異なる方法で扱うための適応分割変換器(ASF-former)を提案する。
ImageNet-1Kのような標準ベンチマークの実験では、我々のASFフォーマーはCNN、トランスフォーマー、ハイブリッドパイロットを精度で上回っている。
論文 参考訳(メタデータ) (2022-04-26T10:00:28Z) - QuadTree Attention for Vision Transformers [45.14894414521764]
計算複雑性を2次から線形に低減するQuadTree Attentionを導入する。
我々のクアッドツリートランスフォーマーはトークンピラミッドを構築し、粗い方法で注意を計算します。
クワッドツリーのアテンションは,様々な視覚タスクにおける最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2022-01-08T05:45:32Z) - Global Vision Transformer Pruning with Hessian-Aware Saliency [93.33895899995224]
この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。
遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。
DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
論文 参考訳(メタデータ) (2021-10-10T18:04:59Z) - End-to-End Multi-speaker Speech Recognition with Transformer [88.22355110349933]
音声認識モデルにおけるRNNベースのエンコーダデコーダをトランスフォーマーアーキテクチャに置き換える。
また、計算量を削減するために、シーケンス全体ではなくセグメントに制限されるセルフアテンションコンポーネントを変更します。
論文 参考訳(メタデータ) (2020-02-10T16:29:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。