論文の概要: CrossGET: Cross-Guided Ensemble of Tokens for Accelerating
Vision-Language Transformers
- arxiv url: http://arxiv.org/abs/2305.17455v1
- Date: Sat, 27 May 2023 12:07:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 19:03:58.877083
- Title: CrossGET: Cross-Guided Ensemble of Tokens for Accelerating
Vision-Language Transformers
- Title(参考訳): crossget:視覚言語トランスフォーマーを加速するトークンのクロスガイドアンサンブル
- Authors: Dachuan Shi, Chaofan Tao, Anyi Rao, Zhendong Yang, Chun Yuan, Jiaqi
Wang
- Abstract要約: 本稿では,textbfCross-textbfGuided textbfEnsemble of textbfTokens (textbfCrossGET) をバイソン言語トランスフォーマーアクセラレーションフレームワークとして提案する。
textitCrossGETは、クロスモーダルなガイド付きトークンマッチングとアンサンブルを組み込んで、トークンを効果的にマージする。
- 参考スコア(独自算出の注目度): 26.879183969824947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models have achieved tremendous progress far beyond what we
ever expected. However, their computational costs and latency are also
dramatically growing with rapid development, making model acceleration
exceedingly critical for researchers with limited resources and consumers with
low-end devices. Although extensively studied for unimodal models, the
acceleration for multimodal models, especially the vision-language
Transformers, is still relatively under-explored. Accordingly, this paper
proposes \textbf{Cross}-\textbf{G}uided \textbf{E}nsemble of \textbf{T}okens
(\textbf{\emph{CrossGET}}) as a universal vison-language Transformer
acceleration framework, which adaptively reduces token numbers during inference
via cross-modal guidance on-the-fly, leading to significant model acceleration
while keeping high performance. Specifically, the proposed \textit{CrossGET}
has two key designs:1) \textit{Cross-Guided Matching and Ensemble}.
\textit{CrossGET} incorporates cross-modal guided token matching and ensemble
to merge tokens effectively, only introducing cross-modal tokens with
negligible extra parameters. 2) \textit{Complete-Graph Soft Matching}. In
contrast to the previous bipartite soft matching approach, \textit{CrossGET}
introduces an efficient and effective complete-graph soft matching policy to
achieve more reliable token-matching results. Extensive experiments on various
vision-language tasks, datasets, and model architectures demonstrate the
effectiveness and versatility of the proposed \textit{CrossGET} framework. The
code will be at https://github.com/sdc17/CrossGET.
- Abstract(参考訳): ビジョン言語モデルは、私たちが予想した以上に大きな進歩を遂げました。
しかし、その計算コストとレイテンシも急速に増加しており、限られたリソースを持つ研究者やローエンドデバイスを持つ消費者にとっては、モデルアクセラレーションが極めて重要である。
ユニモーダルモデルについては広く研究されているが、マルチモーダルモデル、特に視覚言語変換器の加速は、いまだに未探索である。
そこで本稿では, クロスモーダル誘導オンザフライによる推論中にトークン数を適応的に減少させ, 高い性能を維持しつつ, モデル加速度を著しく低減するユニバーサルビゾン言語トランスフォーマーアクセラレーションフレームワークとして, \textbf{Cross}-\textbf{G}uided \textbf{E}nsemble of \textbf{T}okens (\textbf{\emph{CrossGET}})を提案する。
具体的には、提案された \textit{CrossGET} には、2つの重要な設計がある。
\textit{CrossGET}は、クロスモーダルなガイド付きトークンマッチングとアンサンブルを組み込んでトークンを効果的にマージする。
2) \textit{Complete-Graph Soft Matching}。
従来の二部作のソフトマッチング手法とは対照的に, より信頼性の高いトークンマッチング結果を実現するために, 効率的かつ効果的な完全グラフソフトマッチングポリシーを導入している。
さまざまな視覚言語タスク、データセット、モデルアーキテクチャに関する広範な実験は、提案された‘textit{CrossGET}フレームワークの有効性と汎用性を示している。
コードはhttps://github.com/sdc17/crossget。
関連論文リスト
- LeMeViT: Efficient Vision Transformer with Learnable Meta Tokens for Remote Sensing Image Interpretation [37.72775203647514]
本稿では,学習可能なメタトークンを用いてスパーストークンを定式化し,キー情報を効果的に学習し,推論速度を向上させることを提案する。
視覚トークンが密集した早期にデュアル・クロス・アテンション(DCA)を用いることで,様々な大きさの階層型アーキテクチャLeMeViTが得られる。
分類と密接な予測タスクの実験結果は、LeMeViTがベースラインモデルと比較して1.7倍のスピードアップ、少ないパラメータ、競争性能を持っていることを示している。
論文 参考訳(メタデータ) (2024-05-16T03:26:06Z) - CL2CM: Improving Cross-Lingual Cross-Modal Retrieval via Cross-Lingual
Knowledge Transfer [23.58317401302547]
本稿では,言語間移動を用いた視覚と対象言語間のアライメントを改善する汎用フレームワークCL2CMを提案する。
提案手法は,Multi30KとMSCOCOの2つの多言語画像テキストデータセットと,ビデオテキストデータセットVATEXである。
論文 参考訳(メタデータ) (2023-12-14T14:29:53Z) - Fast-StrucTexT: An Efficient Hourglass Transformer with Modality-guided
Dynamic Token Merge for Document Understanding [40.322453628755376]
一般的な効率的な変換器は、直接モデル文書に適合させることが困難である。
Fast-StrucTexTは、時間ガラストランスアーキテクチャを備えたStrucTexTアルゴリズムに基づく効率的なマルチモーダルフレームワークである。
提案モデルでは,最先端の手法よりも約1.9倍高速な推論時間を実現する。
論文 参考訳(メタデータ) (2023-05-19T02:42:35Z) - Plug-and-Play Regulators for Image-Text Matching [76.28522712930668]
微細な対応と視覚的セマンティックなアライメントの爆発は、画像とテキストのマッチングにおいて大きな可能性を秘めている。
我々は、メッセージ出力を効率的にエンコードして、コンテキストを自動生成し、モーダル表現を集約する、シンプルだが非常に効果的な2つのレギュレータを開発した。
MSCOCOとFlickr30Kデータセットの実験は、複数のモデルで印象的で一貫したR@1ゲインをもたらすことができることを実証している。
論文 参考訳(メタデータ) (2023-03-23T15:42:05Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - XCiT: Cross-Covariance Image Transformers [73.33400159139708]
本稿では,トークンではなく機能チャネルをまたいで機能する自己注意の「伝達」バージョンを提案する。
その結果、XCAはトークン数に線形複雑さを持ち、高解像度画像の効率的な処理を可能にする。
論文 参考訳(メタデータ) (2021-06-17T17:33:35Z) - Retrieve Fast, Rerank Smart: Cooperative and Joint Approaches for
Improved Cross-Modal Retrieval [80.35589927511667]
画像中のすべての単語やオブジェクトに係わるクロスアテンション機構を備えたTransformerベースのアーキテクチャを頼りに、クロスモーダル検索プロセスのテキストとビジュアルインプットへの最先端のアプローチ。
事前学習したテキスト画像のマルチモーダルモデルを効率的な検索モデルに変換する新しい微調整フレームワークを提案する。
我々は,モノリンガル,マルチリンガル,ゼロショットにおける一連の標準クロスモーダル検索ベンチマーク実験を行い,最先端クロスエンコーダに対する精度向上と大幅な効率向上を実証した。
論文 参考訳(メタデータ) (2021-03-22T15:08:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。