Fugu-MT 論文翻訳(概要): ScalableViT: Rethinking the Context-oriented Generalization of Vision Transformer

論文の概要: ScalableViT: Rethinking the Context-oriented Generalization of Vision Transformer

arxiv url: http://arxiv.org/abs/2203.10790v1
Date: Mon, 21 Mar 2022 08:08:15 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-22 14:26:47.569188
Title: ScalableViT: Rethinking the Context-oriented Generalization of Vision Transformer
Title（参考訳）: scalablevit: vision transformerのコンテキスト指向一般化を再考する
Authors: Rui Yang, Hailong Ma, Jie Wu, Yansong Tang, Xuefeng Xiao, Min Zheng, Xiu Li
Abstract要約: 自己認識のメカニズムは本質的には、事前に定義された、あるいはよりステッドファストな計算次元に依存している。本稿では,2つのスケーリング要素を利用してクエリ,キー,値行列の次元を解放し,それらを入力とアンバインドする,スケーラブルなセルフアテンション機構を提案する。このスケーラビリティは、コンテキスト指向の一般化を引き合いに出し、オブジェクトの感度を高め、ネットワーク全体を精度とコストの間のより効果的なトレードオフ状態へと押し上げる。
参考スコア（独自算出の注目度）: 26.546827590370054
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The vanilla self-attention mechanism inherently relies on pre-defined and steadfast computational dimensions. Such inflexibility restricts it from possessing context-oriented generalization that can bring more contextual cues and global representations. To mitigate this issue, we propose a Scalable Self-Attention (SSA) mechanism that leverages two scaling factors to release dimensions of query, key, and value matrix while unbinding them with the input. This scalability fetches context-oriented generalization and enhances object sensitivity, which pushes the whole network into a more effective trade-off state between accuracy and cost. Furthermore, we propose an Interactive Window-based Self-Attention (IWSA), which establishes interaction between non-overlapping regions by re-merging independent value tokens and aggregating spatial information from adjacent windows. By stacking the SSA and IWSA alternately, the Scalable Vision Transformer (ScalableViT) achieves state-of-the-art performance in general-purpose vision tasks. For example, ScalableViT-S outperforms Twins-SVT-S by 1.4% and Swin-T by 1.8% on ImageNet-1K classification.
Abstract（参考訳）: バニラ自己アテンション機構は、本質的には事前に定義された計算次元とステッドファスト計算次元に依存する。このような非フレキシビリティは、よりコンテキスト的なキューやグローバルな表現をもたらすようなコンテキスト指向の一般化を持つことから制限される。この問題を軽減するため,我々は2つのスケーリング要素を利用してクエリ,キー,バリューマトリックスの次元を解放し,それらを入力とアンバインディングするスケーラブルなセルフアテンション(ssa)メカニズムを提案する。このスケーラビリティは、コンテキスト指向の一般化を引き合いに出し、オブジェクトの感度を高め、ネットワーク全体を精度とコストの間のより効果的なトレードオフ状態へと押し上げる。さらに、独立値トークンを再統合し、隣接するウィンドウから空間情報を集約することにより、重複しない領域間の相互作用を確立する対話型ウィンドウベースの自己認識(IWSA)を提案する。 SSAとIWSAを交互に積み重ねることで、Scalable Vision Transformer (ScalableViT)は汎用視覚タスクにおける最先端のパフォーマンスを達成する。例えば、ScalableViT-SはTwins-SVT-Sを1.4%、Swin-Tを1.8%上回っている。

関連論文リスト

S2AFormer: Strip Self-Attention for Efficient Vision Transformer [37.930090368513355]
Vision Transformer (ViT) はコンピュータビジョンにおいて大きな進歩を遂げた。最近の手法は、より良いトレードオフを達成するために、畳み込みの強みと自己意識を組み合わせる。 SSA(Strip Self-Attention)を特徴とする効率的な視覚変換器アーキテクチャであるS2AFormerを提案する。
論文参考訳（メタデータ） (2025-05-28T10:17:23Z)
Transformer Meets Twicing: Harnessing Unattended Residual Information [2.1605931466490795]
トランスフォーマーベースのディープラーニングモデルは、多くの言語やビジョンタスクで最先端のパフォーマンスを達成した。自己注意機構は複雑なデータパターンを扱えることが証明されているが、注意行列の表現能力はトランスフォーマー層間で著しく低下する。本研究では,NLM平滑化の低パス動作を軽減するため,非パラメトリック回帰におけるカーネルツイシング手順を用いた新しいアテンション機構であるTwicing Attentionを提案する。
論文参考訳（メタデータ） (2025-03-02T01:56:35Z)
Zero-Shot Interactive Text-to-Image Retrieval via Diffusion-Augmented Representations [7.439049772394586]
Diffusion Augmented Retrieval (DAR)はMLLMの微調整を完全に回避したパラダイムシフトフレームワークである。 DARは、Diffusion Model (DM) ベースの視覚合成を用いて、LLM(Large Language Model) 誘導クエリ改善をシナジし、文脈的にリッチな中間表現を生成する。
論文参考訳（メタデータ） (2025-01-26T03:29:18Z)
CAS-ViT: Convolutional Additive Self-attention Vision Transformers for Efficient Mobile Applications [59.193626019860226]
ビジョントランスフォーマー(ViT)は、トークンミキサーの強力なグローバルコンテキスト能力によって、ニューラルネットワークの革命的な進歩を示す。 CAS-ViT: Convolutional Additive Self-attention Vision Transformersを紹介する。我々はCAS-ViTが他の最先端のバックボーンと比較して競争力を発揮することを示す。
論文参考訳（メタデータ） (2024-08-07T11:33:46Z)
HiRes-LLaVA: Restoring Fragmentation Input in High-Resolution Large Vision-Language Models [96.76995840807615]
HiRes-LLaVAは、元の文脈情報や幾何学的情報を変更することなく、高解像度入力のサイズを処理するように設計された新しいフレームワークである。 HiRes-LLaVAは、2つの革新的なコンポーネントで構成されている: (i)スライスしたパッチを元の形式に再構築し、ダウンアップサンプリング層と畳み込み層を通じてグローバルとローカルの両方の特徴を効率的に抽出するSliceRestoreアダプタ、(ii)自分自身に基づいてビジョントークンを圧縮するセルフマイニングサンプリング。
論文参考訳（メタデータ） (2024-07-11T17:42:17Z)
Sharing Key Semantics in Transformer Makes Efficient Image Restoration [148.22790334216117]
視覚変換器(ViT)の基盤となる自己注意機構は、意味的に無関係なオブジェクトや領域であっても、すべてのグローバルな手がかりを包含する傾向がある。本稿では,Transformer for IR(すなわちSemanIR)を通じて重要なセマンティクスを共有することで,画像復元の性能を向上させることを提案する。
論文参考訳（メタデータ） (2024-05-30T12:45:34Z)
Masked Momentum Contrastive Learning for Zero-shot Semantic Understanding [39.424931953675994]
自己教師付き事前学習(SSP)は、ラベル付きデータなしで有意義な特徴表現を抽出できる機械学習の一般的な手法として登場した。本研究は、コンピュータビジョンタスクにおける純粋な自己教師付き学習(SSL)技術の有効性を評価する。
論文参考訳（メタデータ） (2023-08-22T13:55:57Z)
Lightweight Vision Transformer with Bidirectional Interaction [63.65115590184169]
本研究では,視覚変換器の局所的・グローバル的情報をモデル化するためのFASA機構を提案する。 FASAに基づいて、我々はFAT(Fully Adaptive Transformer)ファミリーという軽量なビジョンバックボーンのファミリーを開発した。
論文参考訳（メタデータ） (2023-06-01T06:56:41Z)
A Close Look at Spatial Modeling: From Attention to Convolution [70.5571582194057]
ビジョントランスフォーマーは最近、洞察に富んだアーキテクチャ設計とアテンションメカニズムのために、多くのビジョンタスクに対して大きな約束をしました。我々は、自己意図の定式化を一般化し、クエリ非関連なグローバルコンテキストを直接抽象化し、グローバルコンテキストを畳み込みに統合する。 FCViT-S12は14M未満のパラメータを持つため、ImageNet-1K上でのResT-Liteの精度は3.7%向上した。
論文参考訳（メタデータ） (2022-12-23T19:13:43Z)
Lite Vision Transformer with Enhanced Self-Attention [39.32480787105232]
2つの拡張自己注意機構を持つ新しい軽量ビジョントランスネットワークLVTを提案する。低レベルの機能については、CSA(Convolutional Self-Attention)を紹介します。高次機能のために、再帰的アトラス自己注意(RASA)を提案する。
論文参考訳（メタデータ） (2021-12-20T19:11:53Z)
Shunted Self-Attention via Multi-Scale Token Aggregation [124.16925784748601]
最近のビジョン変換器(ViT)モデルは、様々なコンピュータビジョンタスクにまたがる励振結果を実証している。注意層ごとのハイブリッドスケールでの注意をViTsでモデル化するShunted Self-attention(SSA)を提案する。 SSAベースの変換器は84.0%のTop-1精度を実現し、ImageNetの最先端のFocal Transformerより優れている。
論文参考訳（メタデータ） (2021-11-30T08:08:47Z)
Feature Fusion Vision Transformer for Fine-Grained Visual Categorization [22.91753200323264]
我々は、新しい純粋なトランスベースフレームワークFeature Fusion Vision Transformer (FFVT)を提案する。各トランス層から重要なトークンを集約し、ローカル、低レベル、中レベルの情報を補う。我々は,相互注意重み付け (MAWS) と呼ばれる新しいトークン選択モジュールを設計し,ネットワークを効果的かつ効率的に識別トークンの選択に向けて誘導する。
論文参考訳（メタデータ） (2021-07-06T01:48:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。