論文の概要: CARE Transformer: Mobile-Friendly Linear Visual Transformer via Decoupled Dual Interaction
- arxiv url: http://arxiv.org/abs/2411.16170v1
- Date: Mon, 25 Nov 2024 07:56:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:20:32.666625
- Title: CARE Transformer: Mobile-Friendly Linear Visual Transformer via Decoupled Dual Interaction
- Title(参考訳): CARE変換器:デカップリングデュアルインタラクションによるモバイルフレンドリーな線形変換器
- Authors: Yuan Zhou, Qingshan Xu, Jiequan Cui, Junbao Zhou, Jing Zhang, Richang Hong, Hanwang Zhang,
- Abstract要約: 本稿では,新しいdetextbfCoupled dutextbfAl-interactive lineatextbfR atttextbfEntion (CARE) 機構を提案する。
まず,非対称な特徴分離戦略を提案し,非対称的に学習プロセスを局所帰納バイアスと長距離依存に分解する。
分離学習方式を採用し,特徴間の相補性を完全に活用することにより,高い効率性と精度を両立させることができる。
- 参考スコア(独自算出の注目度): 77.8576094863446
- License:
- Abstract: Recently, large efforts have been made to design efficient linear-complexity visual Transformers. However, current linear attention models are generally unsuitable to be deployed in resource-constrained mobile devices, due to suffering from either few efficiency gains or significant accuracy drops. In this paper, we propose a new de\textbf{C}oupled du\textbf{A}l-interactive linea\textbf{R} att\textbf{E}ntion (CARE) mechanism, revealing that features' decoupling and interaction can fully unleash the power of linear attention. We first propose an asymmetrical feature decoupling strategy that asymmetrically decouples the learning process for local inductive bias and long-range dependencies, thereby preserving sufficient local and global information while effectively enhancing the efficiency of models. Then, a dynamic memory unit is employed to maintain critical information along the network pipeline. Moreover, we design a dual interaction module to effectively facilitate interaction between local inductive bias and long-range information as well as among features at different layers. By adopting a decoupled learning way and fully exploiting complementarity across features, our method can achieve both high efficiency and accuracy. Extensive experiments on ImageNet-1K, COCO, and ADE20K datasets demonstrate the effectiveness of our approach, e.g., achieving $78.4/82.1\%$ top-1 accuracy on ImagegNet-1K at the cost of only $0.7/1.9$ GMACs. Codes will be released on \href{..}{github}.
- Abstract(参考訳): 近年,効率的な線形複雑視覚変換器の設計への取り組みが盛んに行われている。
しかしながら、現在の線形アテンションモデルは、効率の低下や大幅な精度低下に悩まされているため、リソース制約のあるモバイルデバイスにデプロイするのに一般的に適していない。
本稿では,新しいde\textbf{C}oupled du\textbf{A}l-interactive linea\textbf{R} att\textbf{E}ntion (CARE) 機構を提案する。
まず,局所的帰納バイアスと長距離依存の学習過程を非対称的に非対称的に分離し,モデルの有効性を効果的に向上させながら,十分な局所的・大域的な情報を保存する非対称特徴分離戦略を提案する。
そして、ネットワークパイプラインに沿って重要な情報を維持するために動的メモリユニットが使用される。
さらに,局所的帰納バイアスと長距離情報との相互作用を効果的に促進するデュアルインタラクションモジュールを設計する。
分離学習方式を採用し,特徴間の相補性を完全に活用することにより,高い効率性と精度を両立させることができる。
ImageNet-1K, COCO, ADE20Kデータセットの大規模な実験は、ImagegNet-1Kで78.4/82.1\%$ Top-1精度をわずか0.7/1.9$ GMACsで達成し、我々のアプローチの有効性を実証している。
コードは \href{.} でリリースされる。
dagithub}。
関連論文リスト
- Memory Efficient Transformer Adapter for Dense Predictions [42.413108132475855]
本稿では,メモリ効率を向上し,メモリ消費を低減できるメモリ効率の良いViTアダプタMETAを提案する。
提案するブロック内では、モデルの頻繁な再形成操作を減らすために、断面形状の自己注意が使用される。
METAは予測される品質を大幅に向上し、新しい最先端の精度効率トレードオフを実現している。
論文 参考訳(メタデータ) (2025-02-04T03:19:33Z) - CLEAR: Conv-Like Linearization Revs Pre-Trained Diffusion Transformers Up [64.38715211969516]
CLEARと呼ばれる畳み込み型ローカルアテンション戦略を導入し,各クエリトークンの周囲のローカルウィンドウに特徴的インタラクションを限定する。
実験により,10K反復で10Kの自己生成サンプルに注意層を微調整することにより,事前学習したDiTから線形複雑度のある学生モデルへの知識伝達を効果的に行うことができた。
論文 参考訳(メタデータ) (2024-12-20T17:57:09Z) - Scaled and Inter-token Relation Enhanced Transformer for Sample-restricted Residential NILM [0.0]
本稿では,2つの革新点を持つトランスフォーマーアーキテクチャを提案する。
提案手法をREDDデータセット上で検証し, 各種アプライアンスに対してF1スコアを10~15%向上させる結果を得た。
論文 参考訳(メタデータ) (2024-10-12T18:58:45Z) - CAS-ViT: Convolutional Additive Self-attention Vision Transformers for Efficient Mobile Applications [73.80247057590519]
ビジョントランスフォーマー(ViT)は、トークンミキサーの強力なグローバルコンテキスト能力によって、ニューラルネットワークの革命的な進歩を示す。
CAS-ViT: Convolutional Additive Self-attention Vision Transformerを導入し、モバイルアプリケーションにおける効率と性能のバランスを実現する。
ImageNet-1Kのパラメータは12M/21Mで83.0%/84.1%である。
論文 参考訳(メタデータ) (2024-08-07T11:33:46Z) - Hiformer: Heterogeneous Feature Interactions Learning with Transformers
for Recommender Systems [27.781785405875084]
本稿では,トランスフォーマーをベースとしたアーキテクチャに注目層を配置し,機能的インタラクションを自動的にキャプチャする手法を提案する。
我々は,Webスケールレコメンデータシステムにバニラトランスフォーマーアーキテクチャを適用する上で,2つの重要な課題を特定する。
論文 参考訳(メタデータ) (2023-11-10T05:57:57Z) - TransXNet: Learning Both Global and Local Dynamics with a Dual Dynamic
Token Mixer for Visual Recognition [71.6546914957701]
本稿では,グローバルな情報と局所的な詳細を入力依存の方法で集約する軽量なDual Dynamic Token Mixer (D-Mixer)を提案する。
我々は、新しいハイブリッドCNN-TransformerビジョンバックボーンネットワークであるTransXNetを設計するために、基本的なビルディングブロックとしてD-Mixerを使用している。
ImageNet-1Kの画像分類タスクでは、TransXNet-TはSwing-Tを0.3%上回り、計算コストの半分以下である。
論文 参考訳(メタデータ) (2023-10-30T09:35:56Z) - AGaLiTe: Approximate Gated Linear Transformers for Online Reinforcement Learning [7.886461196772644]
コンテクストに依存しない推論コストを提供するトランスフォーマー自己アテンション機構の代替を提案する。
最先端アーキテクチャであるGTrXLと比較して、我々のアプローチでの推論は少なくとも40%安価であり、メモリ使用量を50%以上削減している。
論文 参考訳(メタデータ) (2023-10-24T10:51:50Z) - Lightweight Vision Transformer with Bidirectional Interaction [63.65115590184169]
本研究では,視覚変換器の局所的・グローバル的情報をモデル化するためのFASA機構を提案する。
FASAに基づいて、我々はFAT(Fully Adaptive Transformer)ファミリーという軽量なビジョンバックボーンのファミリーを開発した。
論文 参考訳(メタデータ) (2023-06-01T06:56:41Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。