Fugu-MT 論文翻訳(概要): Context-Aware Token Selection and Packing for Enhanced Vision Transformer

論文の概要: Context-Aware Token Selection and Packing for Enhanced Vision Transformer

arxiv url: http://arxiv.org/abs/2410.23608v2
Date: Sun, 03 Nov 2024 01:00:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:42.651109
Title: Context-Aware Token Selection and Packing for Enhanced Vision Transformer
Title（参考訳）: 拡張視覚変換器のためのコンテキスト対応トークン選択とパッケージ化
Authors: Tianyi Zhang, Baoxin Li, Jae-sun Seo, Yu Cao,
Abstract要約: 従来の自己保持機構は、非効率性と不正確さに悩まされている。我々はSelect and Pack Attention (SPA)という新しいアルゴリズムを提案する。 SPAは、選択ラベルによって管理される低コストのゲーティング層を使用して情報トークンを動的に選択し、これらのトークンを新しいバッチにまとめる。実験の結果、SPAはオブジェクト検出の0.6mAP改善や計算コストの16.4%削減など、優れたパフォーマンスと効率を提供することが示された。
参考スコア（独自算出の注目度）: 21.856531225617935
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In recent years, the long-range attention mechanism of vision transformers has driven significant performance breakthroughs across various computer vision tasks. However, the traditional self-attention mechanism, which processes both informative and non-informative tokens, suffers from inefficiency and inaccuracies. While sparse attention mechanisms have been introduced to mitigate these issues by pruning tokens involved in attention, they often lack context-awareness and intelligence. These mechanisms frequently apply a uniform token selection strategy across different inputs for batch training or optimize efficiency only for the inference stage. To overcome these challenges, we propose a novel algorithm: Select and Pack Attention (SPA). SPA dynamically selects informative tokens using a low-cost gating layer supervised by selection labels and packs these tokens into new batches, enabling a variable number of tokens to be used in parallelized GPU batch training and inference. Extensive experiments across diverse datasets and computer vision tasks demonstrate that SPA delivers superior performance and efficiency, including a 0.6 mAP improvement in object detection and a 16.4% reduction in computational costs.
Abstract（参考訳）: 近年、視覚変換器の長距離注意機構は、様々なコンピュータビジョンタスクにおいて大きなパフォーマンスブレークスルーを引き起こしている。しかし、情報的トークンと非情報的トークンの両方を処理する従来の自己保持機構は、非効率性と不正確性に悩まされている。注意に関わるトークンを刈り取ることでこれらの問題を緩和するために、スパークアテンション機構が導入されたが、文脈認識や知性に欠けることが多い。これらのメカニズムは、バッチトレーニングのために異なる入力に対して均一なトークン選択戦略を適用したり、推論段階でのみ効率を最適化する。これらの課題を克服するために,Select and Pack Attention (SPA) という新しいアルゴリズムを提案する。 SPAは、選択ラベルによって管理される低コストのゲーティング層を使用して情報トークンを動的に選択し、これらのトークンを新しいバッチにパックすることで、並列化されたGPUバッチトレーニングと推論でさまざまな数のトークンを使用できる。多様なデータセットとコンピュータビジョンタスクにわたる大規模な実験は、SPAがオブジェクト検出の0.6 mAPの改善や計算コストの16.4%削減など、優れたパフォーマンスと効率を提供することを示した。

関連論文リスト

Artifacts and Attention Sinks: Structured Approximations for Efficient Vision Transformers [8.486148475471271]
ビジョントランスフォーマーは幅広いアプリケーションにまたがる強力なツールとして登場したが、内部の動作は部分的にしか理解されていない。大量のトークン – 注目シンクとして機能する極めて高いアクティベーション規範を持つトークン – と,推論中に副産物として現れるアーティファクトトークン – の現象について検討する。我々は、線形時間と空間における自己注意を近似する訓練不要なFast Nystr"om Attention (FNA)を導入する。
論文参考訳（メタデータ） (2025-07-21T19:29:03Z)
GreedyPrune: Retenting Critical Visual Token Set for Large Vision Language Models [5.025353943896242]
GreedyPruneは、セマンティックサリエンシと視覚的多様性を最適化するために設計された、トレーニング不要のビジュアルトークンプルーニングアルゴリズムである。 GreedyPruneは様々なマルチモーダルタスクやモデルにまたがって最先端の精度を実現し、エンドツーエンドの推論遅延を大幅に低減することを示す。
論文参考訳（メタデータ） (2025-06-16T07:21:11Z)
Token Transforming: A Unified and Training-Free Token Compression Framework for Vision Transformer Acceleration [8.584066042703972]
本稿では,既存のすべてのメソッドを一般化する多対多のToken変換フレームワークを提案する。具体的には、40%のFLOPを減らし、DeiT-Sを1.5ドル、限界0.1%の精度低下で加速する。本手法をセグメント化,オブジェクト検出,深さ推定,言語モデル生成など,高密度な予測タスクに拡張する。
論文参考訳（メタデータ） (2025-06-06T03:18:11Z)
ToDRE: Visual Token Pruning via Diversity and Task Awareness for Efficient Large Vision-Language Models [59.47738955960352]
ToDREは、2段階でトレーニング不要なトークン圧縮フレームワークである。トークンの多様性とトークン-タスク関連性に基づいてトークンをプルーニングすることで、優れたパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-05-24T15:47:49Z)
Top-Down Compression: Revisit Efficient Vision Token Projection for Visual Instruction Tuning [70.57180215148125]
ビジュアルインストラクションチューニングは、大きな言語モデルで視覚世界を理解できるようにすることを目的としている。既存の手法は、精度と効率の間の難解なトレードオフに悩まされることが多い。 LLaVA-Meteorは,コア情報を妥協することなく,視覚トークンを戦略的に圧縮する手法である。
論文参考訳（メタデータ） (2025-05-17T10:22:29Z)
Dynamic Token Reduction during Generation for Vision Language Models [11.376359442815986]
視覚言語モデル(VLM)に適した動的プルーニング戦略を導入する。提案手法は,注意分布に基づく刈り取り率の柔軟な調整を可能にする。実験結果から,本手法は計算要求を低減させるだけでなく,応答の質も維持することが示された。
論文参考訳（メタデータ） (2025-01-24T03:20:37Z)
AdaFV: Rethinking of Visual-Language alignment for VLM acceleration [7.9213473377478865]
偏りのあるVLMの自己アテンションに応じて視覚トークンを減らすいくつかのアプローチは、不正確な応答をもたらす。本稿では,視覚的満足度とテキスト・ツー・イメージの類似性の有効性を動的に活用する,自己適応型クロスモーダリティ・アテンション・ミックス機構を提案する。提案手法は,特に縮小速度が十分に大きい場合,最先端のトレーニング不要なVLM加速性能を実現する。
論文参考訳（メタデータ） (2025-01-16T13:34:33Z)
[CLS] Token Tells Everything Needed for Training-free Efficient MLLMs [66.5266435598799]
MLLM(Multi- Language Large Language Models)は、最近、広範囲の視覚タスクにおいて強力なパフォーマンスを示した。しかし、その効率的なデプロイメントは、高い計算コストとメモリ要求のため、依然として大きな課題である。本稿では,VTC圧縮という,列車不要の視覚圧縮のための簡易かつ効果的な手法を提案する。
論文参考訳（メタデータ） (2024-12-08T05:29:39Z)
ToSA: Token Selective Attention for Efficient Vision Transformers [50.13756218204456]
ToSAはトークン選択型アテンションアプローチで、コンバータ層をスキップできるトークンだけでなく、参加する必要のあるトークンも識別できる。 ToSAは,ImageNet分類ベンチマークの精度を維持しながら,計算コストを大幅に削減できることを示す。
論文参考訳（メタデータ） (2024-06-13T05:17:21Z)
Semantic Equitable Clustering: A Simple and Effective Strategy for Clustering Vision Tokens [57.37893387775829]
textbfSemantic textbfEquitable textbfClustering (SEC) という,高速かつバランスの取れたクラスタリング手法を導入する。 SECは、グローバルなセマンティックな関連性に基づいてトークンを効率的かつ直接的な方法でクラスタ化する。視覚言語コネクタとして機能する汎用視覚バックボーンであるSECViTを提案する。
論文参考訳（メタデータ） (2024-05-22T04:49:00Z)
Emerging Property of Masked Token for Effective Pre-training [15.846621577804791]
Masked Image Modeling (MIM)はコンピュータビジョンにおける最近のブレークスルーの推進に役立っている。 MIMの全体的な効率は、トレーニング前のフェーズの長い持続時間によって妨げられることがある。本稿では,マスクトークンの重み付けとキー特性の強化によるモデル効率の向上を目的として,マスクトークン最適化(MTO)と呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2024-04-12T08:46:53Z)
TPC-ViT: Token Propagation Controller for Efficient Vision Transformer [6.341420717393898]
ビジョントランス (ViT) は様々なコンピュータビジョンタスクにおいて有望な結果を得た。この課題に対処するために、段階的なトークン削減を採用する以前のアプローチでは、ひとつのレイヤにおけるトークンの冗長性は、以下のすべてのレイヤにおける冗長性を意味すると仮定されている。本稿では、2つの異なるトークン分布を組み込んだ新しいトークン伝搬制御器(TPC)を提案する。
論文参考訳（メタデータ） (2024-01-03T00:10:33Z)
Multi-Scale And Token Mergence: Make Your ViT More Efficient [3.087140219508349]
Vision Transformer (ViT) はコンピュータビジョン領域において一般的なモデルとして登場した。より重要なトークンとマージすることで,非機密トークンからの情報を保持できる新しいトークンプルーニング手法を提案する。提案手法は,DeiT-Sの精度は0.1%しか低下せず,計算コストの33%の大幅な削減を実現している。
論文参考訳（メタデータ） (2023-06-08T02:58:15Z)
Skip-Attention: Improving Vision Transformers by Paying Less Attention [55.47058516775423]
視覚計算変換器(ViT)は、すべての層で高価な自己注意操作を使用する。また,SkipAtを提案する。SkipAtは,先行層から自己注意を再利用して1層以上の注意を近似する手法である。本稿では,画像の分類と自己教師型学習,ADE20Kのセマンティックセグメンテーション,SIDDの画像デノイング,DAVISのビデオデノナイズにおける手法の有効性を示す。
論文参考訳（メタデータ） (2023-01-05T18:59:52Z)
Token-Label Alignment for Vision Transformers [93.58540411138164]
データ混合戦略(例えば、CutMix)は、畳み込みニューラルネットワーク(CNN)の性能を大幅に改善する能力を示している。我々は,データ混合戦略の可能性を抑制するトークン変動現象を同定する。本稿では,各トークンのラベルを保持するために,変換されたトークンと元のトークンとの対応をトレースするトークンラベルアライメント(TL-Align)手法を提案する。
論文参考訳（メタデータ） (2022-10-12T17:54:32Z)
Adaptive Sparse ViT: Towards Learnable Adaptive Token Pruning by Fully Exploiting Self-Attention [36.90363317158731]
最小限のコストで適応的なスパーストークンプルーニングフレームワークを提案する。提案手法では,DeiT-Sのスループットを50%向上し,トップ1の精度は0.2%低下した。
論文参考訳（メタデータ） (2022-09-28T03:07:32Z)
Shunted Self-Attention via Multi-Scale Token Aggregation [124.16925784748601]
最近のビジョン変換器(ViT)モデルは、様々なコンピュータビジョンタスクにまたがる励振結果を実証している。注意層ごとのハイブリッドスケールでの注意をViTsでモデル化するShunted Self-attention(SSA)を提案する。 SSAベースの変換器は84.0%のTop-1精度を実現し、ImageNetの最先端のFocal Transformerより優れている。
論文参考訳（メタデータ） (2021-11-30T08:08:47Z)
Unlocking Pixels for Reinforcement Learning via Implicit Attention [61.666538764049854]
我々は最近,トランスフォーマーに非常に有効であることが示されている,新しい効率的なアテンションアルゴリズムを利用している。これにより、注意に基づくコントローラは、より大きな視覚入力にスケールでき、より小さなパッチの使用が容易になります。さらに,ソフトマックスの注目度をハイブリッドランダム特徴量で近似するアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-02-08T17:00:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。