Fugu-MT 論文翻訳(概要): CARE Transformer: Mobile-Friendly Linear Visual Transformer via Decoupled Dual Interaction

論文の概要: CARE Transformer: Mobile-Friendly Linear Visual Transformer via Decoupled Dual Interaction

arxiv url: http://arxiv.org/abs/2411.16170v1
Date: Mon, 25 Nov 2024 07:56:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:50.729777
Title: CARE Transformer: Mobile-Friendly Linear Visual Transformer via Decoupled Dual Interaction
Title（参考訳）: CARE変換器:デカップリングデュアルインタラクションによるモバイルフレンドリーな線形変換器
Authors: Yuan Zhou, Qingshan Xu, Jiequan Cui, Junbao Zhou, Jing Zhang, Richang Hong, Hanwang Zhang,
Abstract要約: 本稿では,新しいdetextbfCoupled dutextbfAl-interactive lineatextbfR atttextbfEntion (CARE) 機構を提案する。まず,非対称な特徴分離戦略を提案し,非対称的に学習プロセスを局所帰納バイアスと長距離依存に分解する。分離学習方式を採用し,特徴間の相補性を完全に活用することにより,高い効率性と精度を両立させることができる。
参考スコア（独自算出の注目度）: 77.8576094863446
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, large efforts have been made to design efficient linear-complexity visual Transformers. However, current linear attention models are generally unsuitable to be deployed in resource-constrained mobile devices, due to suffering from either few efficiency gains or significant accuracy drops. In this paper, we propose a new de\textbf{C}oupled du\textbf{A}l-interactive linea\textbf{R} att\textbf{E}ntion (CARE) mechanism, revealing that features' decoupling and interaction can fully unleash the power of linear attention. We first propose an asymmetrical feature decoupling strategy that asymmetrically decouples the learning process for local inductive bias and long-range dependencies, thereby preserving sufficient local and global information while effectively enhancing the efficiency of models. Then, a dynamic memory unit is employed to maintain critical information along the network pipeline. Moreover, we design a dual interaction module to effectively facilitate interaction between local inductive bias and long-range information as well as among features at different layers. By adopting a decoupled learning way and fully exploiting complementarity across features, our method can achieve both high efficiency and accuracy. Extensive experiments on ImageNet-1K, COCO, and ADE20K datasets demonstrate the effectiveness of our approach, e.g., achieving $78.4/82.1\%$ top-1 accuracy on ImagegNet-1K at the cost of only $0.7/1.9$ GMACs. Codes will be released on \href{..}{github}.
Abstract（参考訳）: 近年,効率的な線形複雑視覚変換器の設計への取り組みが盛んに行われている。しかしながら、現在の線形アテンションモデルは、効率の低下や大幅な精度低下に悩まされているため、リソース制約のあるモバイルデバイスにデプロイするのに一般的に適していない。本稿では,新しいde\textbf{C}oupled du\textbf{A}l-interactive linea\textbf{R} att\textbf{E}ntion (CARE) 機構を提案する。まず,局所的帰納バイアスと長距離依存の学習過程を非対称的に非対称的に分離し,モデルの有効性を効果的に向上させながら,十分な局所的・大域的な情報を保存する非対称特徴分離戦略を提案する。そして、ネットワークパイプラインに沿って重要な情報を維持するために動的メモリユニットが使用される。さらに,局所的帰納バイアスと長距離情報との相互作用を効果的に促進するデュアルインタラクションモジュールを設計する。分離学習方式を採用し,特徴間の相補性を完全に活用することにより,高い効率性と精度を両立させることができる。 ImageNet-1K, COCO, ADE20Kデータセットの大規模な実験は、ImagegNet-1Kで78.4/82.1\%$ Top-1精度をわずか0.7/1.9$ GMACsで達成し、我々のアプローチの有効性を実証している。コードは \href{.} でリリースされる。 dagithub}。

関連論文リスト

Communication-Efficient Wireless Federated Fine-Tuning for Large-Scale AI Models [13.742950928229078]
Low-Rank Adaptation (LoRA) は、完全に微調整された大型モデルではなく、コンパクトで低ランクな行列を訓練することでこれらの問題に対処する。本稿では,学習性能と通信効率の両方を最適化する無線フェデレーションLoRAファインチューニングフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-01T06:15:38Z)
Embedded Federated Feature Selection with Dynamic Sparse Training: Balancing Accuracy-Cost Tradeoffs [1.749521391198341]
textitDynamic Sparse Federated Feature Selection (DSFFS)について述べる。トレーニング中、入力層ニューロン、それらの接続、および隠れ層接続は動的に切断され、非形式的特徴を排除される。生物学、画像、スピーチ、テキストを含む9つの実世界のデータセットで、いくつかの実験が実施されている。
論文参考訳（メタデータ） (2025-04-07T16:33:05Z)
Efficient Token Compression for Vision Transformer with Spatial Information Preserved [59.79302182800274]
トーケン圧縮は、トランスモデルの計算およびメモリ要求の低減に不可欠である。本稿では,Prune と Merge という,効率的なハードウェア互換のトークン圧縮手法を提案する。
論文参考訳（メタデータ） (2025-03-30T14:23:18Z)
Structure-Activation Synergy: A Dual Efficiency Framework for Parameter-Memory Optimized Transfer Learning [8.602744958104969]
本稿では、パラメータとメモリの二重最適化を実現する革新的なフレームワークであるStructure-Activation Synergy(S2A)を提案する。我々は、S2Aの優れた効率を示し、GPUメモリ消費を75%削減し(平均4.2削減)、フル微調整精度の98.7%を維持し、わずか0.9%の調整可能なパラメータしか持たない。
論文参考訳（メタデータ） (2025-03-11T08:10:03Z)
Transformer Meets Twicing: Harnessing Unattended Residual Information [2.1605931466490795]
トランスフォーマーベースのディープラーニングモデルは、多くの言語やビジョンタスクで最先端のパフォーマンスを達成した。自己注意機構は複雑なデータパターンを扱えることが証明されているが、注意行列の表現能力はトランスフォーマー層間で著しく低下する。本研究では,NLM平滑化の低パス動作を軽減するため,非パラメトリック回帰におけるカーネルツイシング手順を用いた新しいアテンション機構であるTwicing Attentionを提案する。
論文参考訳（メタデータ） (2025-03-02T01:56:35Z)
CLEAR: Conv-Like Linearization Revs Pre-Trained Diffusion Transformers Up [64.38715211969516]
CLEARと呼ばれる畳み込み型ローカルアテンション戦略を導入し,各クエリトークンの周囲のローカルウィンドウに特徴的インタラクションを限定する。実験により,10K反復で10Kの自己生成サンプルに注意層を微調整することにより,事前学習したDiTから線形複雑度のある学生モデルへの知識伝達を効果的に行うことができた。
論文参考訳（メタデータ） (2024-12-20T17:57:09Z)
CAS-ViT: Convolutional Additive Self-attention Vision Transformers for Efficient Mobile Applications [73.80247057590519]
ビジョントランスフォーマー(ViT)は、トークンミキサーの強力なグローバルコンテキスト能力によって、ニューラルネットワークの革命的な進歩を示す。 CAS-ViT: Convolutional Additive Self-attention Vision Transformerを導入し、モバイルアプリケーションにおける効率と性能のバランスを実現する。 ImageNet-1Kのパラメータは12M/21Mで83.0%/84.1%である。
論文参考訳（メタデータ） (2024-08-07T11:33:46Z)
REP: Resource-Efficient Prompting for On-device Continual Learning [23.92661395403251]
オンデバイス連続学習(CL)は、モデル精度と資源効率の協調最適化を実践するために必要である。 CNNベースのCLは資源効率に優れており、ViTベースのCLはモデル性能に優れていると一般的に信じられている。本稿では,プロンプトベースのリハーサルフリー手法を特化して資源効率を向上させるREPを紹介する。
論文参考訳（メタデータ） (2024-06-07T09:17:33Z)
Efficient and Economic Large Language Model Inference with Attention Offloading [11.698376311689456]
トランスフォーマーベースの大規模言語モデル(LLM)は、生成タスクにおいて優れたパフォーマンスを示すが、現実のサービスにおいて大きな課題をもたらす。このミスマッチは LLM の自己回帰的な性質から生じ、生成フェーズはリソース要求の異なる演算子から構成される。 LLMの効率性と費用対効果を高めるために,注意オフロードの概念を導入する。
論文参考訳（メタデータ） (2024-05-03T02:15:15Z)
Hiformer: Heterogeneous Feature Interactions Learning with Transformers for Recommender Systems [27.781785405875084]
本稿では,トランスフォーマーをベースとしたアーキテクチャに注目層を配置し,機能的インタラクションを自動的にキャプチャする手法を提案する。我々は,Webスケールレコメンデータシステムにバニラトランスフォーマーアーキテクチャを適用する上で,2つの重要な課題を特定する。
論文参考訳（メタデータ） (2023-11-10T05:57:57Z)
TransXNet: Learning Both Global and Local Dynamics with a Dual Dynamic Token Mixer for Visual Recognition [71.6546914957701]
本稿では,グローバルな情報と局所的な詳細を入力依存の方法で集約する軽量なDual Dynamic Token Mixer (D-Mixer)を提案する。我々は、新しいハイブリッドCNN-TransformerビジョンバックボーンネットワークであるTransXNetを設計するために、基本的なビルディングブロックとしてD-Mixerを使用している。 ImageNet-1Kの画像分類タスクでは、TransXNet-TはSwing-Tを0.3%上回り、計算コストの半分以下である。
論文参考訳（メタデータ） (2023-10-30T09:35:56Z)
AGaLiTe: Approximate Gated Linear Transformers for Online Reinforcement Learning [7.886461196772644]
コンテクストに依存しない推論コストを提供するトランスフォーマー自己アテンション機構の代替を提案する。最先端アーキテクチャであるGTrXLと比較して、我々のアプローチでの推論は少なくとも40%安価であり、メモリ使用量を50%以上削減している。
論文参考訳（メタデータ） (2023-10-24T10:51:50Z)
FLatten Transformer: Vision Transformer using Focused Linear Attention [80.61335173752146]
線形注意(linear attention)は、その線形複雑性に対して、はるかに効率的な代替手段を提供する。現在の線形アテンションアプローチは、大きなパフォーマンス劣化に悩まされるか、追加の計算オーバーヘッドを導入するかのいずれかである。本研究では,高効率と表現性の両方を実現するために,新しいFocused Linear Attentionモジュールを提案する。
論文参考訳（メタデータ） (2023-08-01T10:37:12Z)
Lightweight Vision Transformer with Bidirectional Interaction [63.65115590184169]
本研究では,視覚変換器の局所的・グローバル的情報をモデル化するためのFASA機構を提案する。 FASAに基づいて、我々はFAT(Fully Adaptive Transformer)ファミリーという軽量なビジョンバックボーンのファミリーを開発した。
論文参考訳（メタデータ） (2023-06-01T06:56:41Z)
Cross-receptive Focused Inference Network for Lightweight Image Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文参考訳（メタデータ） (2022-07-06T16:32:29Z)
Joint Spatial-Temporal and Appearance Modeling with Transformer for Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文参考訳（メタデータ） (2022-05-31T01:19:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。