論文の概要: O-ViT: Orthogonal Vision Transformer
- arxiv url: http://arxiv.org/abs/2201.12133v1
- Date: Fri, 28 Jan 2022 14:18:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-31 14:52:36.522321
- Title: O-ViT: Orthogonal Vision Transformer
- Title(参考訳): O-ViT:直交型視覚変換器
- Authors: Yanhong Fei, Yingjie Liu, Xian Wei, Mingsong Chen
- Abstract要約: Vision Transformer(ViT)は、画像パッチシーケンスに自己アテンションを創造的に適用し、素晴らしいパフォーマンスを実現します。
幾何学的視点からViTを最適化するために,Orthogonal Vision Transformer (O-ViT) という新しい手法を提案する。
我々は,O-ViTの有効性を示すために画像認識タスクの比較実験を行い,O-ViTが最大3.6%向上することを示す実験を行った。
- 参考スコア(独自算出の注目度): 7.936742888035828
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inspired by the tremendous success of the self-attention mechanism in natural
language processing, the Vision Transformer (ViT) creatively applies it to
image patch sequences and achieves incredible performance. However, the scaled
dot-product self-attention of ViT brings about scale ambiguity to the structure
of the original feature space. To address this problem, we propose a novel
method named Orthogonal Vision Transformer (O-ViT), to optimize ViT from the
geometric perspective. O-ViT limits parameters of self-attention blocks to be
on the norm-keeping orthogonal manifold, which can keep the geometry of the
feature space. Moreover, O-ViT achieves both orthogonal constraints and cheap
optimization overhead by adopting a surjective mapping between the orthogonal
group and its Lie algebra.We have conducted comparative experiments on image
recognition tasks to demonstrate O-ViT's validity and experiments show that
O-ViT can boost the performance of ViT by up to 3.6%.
- Abstract(参考訳): ViT(Vision Transformer)は、自然言語処理における自己認識機構の素晴らしい成功に触発され、画像パッチシーケンスに創造的に適用し、素晴らしいパフォーマンスを実現します。
しかし、ViTのスケールされたドット積自己アテンションは、元の特徴空間の構造にスケールの曖昧さをもたらす。
この問題に対処するために、幾何学的視点からViTを最適化するOrthogonal Vision Transformer (O-ViT) という新しい手法を提案する。
O-ViT は自己アテンションブロックのパラメータをノルム維持直交多様体上に制限し、特徴空間の幾何学を維持できる。
さらに、O-ViTは直交群とリー代数間の全射写像を採用することで、直交制約と安価な最適化オーバーヘッドの両方を実現し、O-ViTの有効性を実証するために画像認識タスクの比較実験を行い、O-ViTが最大3.6%向上することを示した。
関連論文リスト
- LF-ViT: Reducing Spatial Redundancy in Vision Transformer for Efficient
Image Recognition [9.727093171296678]
Vision Transformer (ViT) は高解像度画像を扱う際の精度を向上する。
これは空間冗長性の著しい課題に直面し、計算とメモリの要求が増大する。
LF-ViT(Localization and Focus Vision Transformer)について述べる。
計算要求を戦略的に削減し、性能を損なうことなく運用する。
論文 参考訳(メタデータ) (2024-01-08T01:32:49Z) - Denoising Vision Transformers [43.03068202384091]
本稿では、DVT(Denoising Vision Transformers)と呼ばれる2段階のDenoisingアプローチを提案する。
第1段階では、画像ごとのニューラルネットワークとの横断的な特徴整合を強制することにより、位置的アーティファクトによって汚染されたものからクリーンな特徴を分離する。
第2段階では、クリーンな特徴を生のViT出力から予測するために軽量なトランスフォーマーブロックを訓練し、クリーンな特徴の導出推定を監督として活用する。
論文 参考訳(メタデータ) (2024-01-05T18:59:52Z) - Group Multi-View Transformer for 3D Shape Analysis with Spatial Encoding [81.1943823985213]
近年,ビューベース3次元形状認識手法の結果は飽和しており,メモリ制限デバイスに優れた性能を持つモデルは展開できない。
本稿では,本分野の知識蒸留に基づく圧縮手法を提案し,モデル性能を極力保ちながらパラメータ数を大幅に削減する。
具体的には、小型モデルの能力を高めるため、GMViT(Group Multi-view Vision Transformer)と呼ばれる高性能な大型モデルを設計する。
GMViTは、ベンチマークデータセットであるModelNet、ShapeNetCore55、MCBにおいて、優れた3D分類と検索結果を得る。
論文 参考訳(メタデータ) (2023-12-27T08:52:41Z) - PriViT: Vision Transformers for Fast Private Inference [55.36478271911595]
Vision Transformer (ViT) アーキテクチャは、コンピュータビジョンアプリケーションのための最先端のディープモデルのバックボーンとして登場した。
ViTは、多くの非ポリノミカル操作のため、セキュアなマルチパーティプロトコルを使用したプライベート推論には適していない。
予測精度を維持しつつ,ViTの非線形性を選択的に"テイラー化"するアルゴリズムであるPriViTを提案する。
論文 参考訳(メタデータ) (2023-10-06T21:45:05Z) - Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and
Resolution [34.05028995319689]
Vision Transformer (ViT) モデルはフレキシブルなシーケンスベースのモデリングを提供する。
Native Resolution ViTはトレーニング中にシーケンスパッキングを使用して任意の解像度とアスペクト比の入力を処理する。
NaViTは画像やビデオの分類、オブジェクトの検出、セマンティックセグメンテーションといった標準的なタスクに効率的に転送できる。
論文 参考訳(メタデータ) (2023-07-12T17:01:03Z) - Quaternion Orthogonal Transformer for Facial Expression Recognition in
the Wild [3.2898396463438995]
特徴分類のための四元視覚変換器(Q-ViT)を開発した。
3つの組込みFERデータセットの実験結果から、提案したQOTがいくつかの最先端モデルより優れていることが示された。
論文 参考訳(メタデータ) (2023-03-14T12:07:48Z) - Coarse-to-Fine Vision Transformer [83.45020063642235]
性能を維持しながら計算負担を軽減するための粗視変換器(CF-ViT)を提案する。
提案するCF-ViTは,近代的なViTモデルにおける2つの重要な観測によって動機付けられている。
CF-ViTはLV-ViTのFLOPを53%削減し,スループットも2.01倍に向上した。
論文 参考訳(メタデータ) (2022-03-08T02:57:49Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。