論文の概要: CrossGET: Cross-Guided Ensemble of Tokens for Accelerating
Vision-Language Transformers
- arxiv url: http://arxiv.org/abs/2305.17455v1
- Date: Sat, 27 May 2023 12:07:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 19:03:58.877083
- Title: CrossGET: Cross-Guided Ensemble of Tokens for Accelerating
Vision-Language Transformers
- Title(参考訳): crossget:視覚言語トランスフォーマーを加速するトークンのクロスガイドアンサンブル
- Authors: Dachuan Shi, Chaofan Tao, Anyi Rao, Zhendong Yang, Chun Yuan, Jiaqi
Wang
- Abstract要約: 本稿では,textbfCross-textbfGuided textbfEnsemble of textbfTokens (textbfCrossGET) をバイソン言語トランスフォーマーアクセラレーションフレームワークとして提案する。
textitCrossGETは、クロスモーダルなガイド付きトークンマッチングとアンサンブルを組み込んで、トークンを効果的にマージする。
- 参考スコア(独自算出の注目度): 26.879183969824947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models have achieved tremendous progress far beyond what we
ever expected. However, their computational costs and latency are also
dramatically growing with rapid development, making model acceleration
exceedingly critical for researchers with limited resources and consumers with
low-end devices. Although extensively studied for unimodal models, the
acceleration for multimodal models, especially the vision-language
Transformers, is still relatively under-explored. Accordingly, this paper
proposes \textbf{Cross}-\textbf{G}uided \textbf{E}nsemble of \textbf{T}okens
(\textbf{\emph{CrossGET}}) as a universal vison-language Transformer
acceleration framework, which adaptively reduces token numbers during inference
via cross-modal guidance on-the-fly, leading to significant model acceleration
while keeping high performance. Specifically, the proposed \textit{CrossGET}
has two key designs:1) \textit{Cross-Guided Matching and Ensemble}.
\textit{CrossGET} incorporates cross-modal guided token matching and ensemble
to merge tokens effectively, only introducing cross-modal tokens with
negligible extra parameters. 2) \textit{Complete-Graph Soft Matching}. In
contrast to the previous bipartite soft matching approach, \textit{CrossGET}
introduces an efficient and effective complete-graph soft matching policy to
achieve more reliable token-matching results. Extensive experiments on various
vision-language tasks, datasets, and model architectures demonstrate the
effectiveness and versatility of the proposed \textit{CrossGET} framework. The
code will be at https://github.com/sdc17/CrossGET.
- Abstract(参考訳): ビジョン言語モデルは、私たちが予想した以上に大きな進歩を遂げました。
しかし、その計算コストとレイテンシも急速に増加しており、限られたリソースを持つ研究者やローエンドデバイスを持つ消費者にとっては、モデルアクセラレーションが極めて重要である。
ユニモーダルモデルについては広く研究されているが、マルチモーダルモデル、特に視覚言語変換器の加速は、いまだに未探索である。
そこで本稿では, クロスモーダル誘導オンザフライによる推論中にトークン数を適応的に減少させ, 高い性能を維持しつつ, モデル加速度を著しく低減するユニバーサルビゾン言語トランスフォーマーアクセラレーションフレームワークとして, \textbf{Cross}-\textbf{G}uided \textbf{E}nsemble of \textbf{T}okens (\textbf{\emph{CrossGET}})を提案する。
具体的には、提案された \textit{CrossGET} には、2つの重要な設計がある。
\textit{CrossGET}は、クロスモーダルなガイド付きトークンマッチングとアンサンブルを組み込んでトークンを効果的にマージする。
2) \textit{Complete-Graph Soft Matching}。
従来の二部作のソフトマッチング手法とは対照的に, より信頼性の高いトークンマッチング結果を実現するために, 効率的かつ効果的な完全グラフソフトマッチングポリシーを導入している。
さまざまな視覚言語タスク、データセット、モデルアーキテクチャに関する広範な実験は、提案された‘textit{CrossGET}フレームワークの有効性と汎用性を示している。
コードはhttps://github.com/sdc17/crossget。
関連論文リスト
- CL2CM: Improving Cross-Lingual Cross-Modal Retrieval via Cross-Lingual
Knowledge Transfer [23.58317401302547]
本稿では,言語間移動を用いた視覚と対象言語間のアライメントを改善する汎用フレームワークCL2CMを提案する。
提案手法は,Multi30KとMSCOCOの2つの多言語画像テキストデータセットと,ビデオテキストデータセットVATEXである。
論文 参考訳(メタデータ) (2023-12-14T14:29:53Z) - Fast-StrucTexT: An Efficient Hourglass Transformer with Modality-guided
Dynamic Token Merge for Document Understanding [40.322453628755376]
一般的な効率的な変換器は、直接モデル文書に適合させることが困難である。
Fast-StrucTexTは、時間ガラストランスアーキテクチャを備えたStrucTexTアルゴリズムに基づく効率的なマルチモーダルフレームワークである。
提案モデルでは,最先端の手法よりも約1.9倍高速な推論時間を実現する。
論文 参考訳(メタデータ) (2023-05-19T02:42:35Z) - AMT: All-Pairs Multi-Field Transforms for Efficient Frame Interpolation [80.33846577924363]
ビデオフレームギスブのための新しいネットワークアーキテクチャであるAMT(All-Pairs Multi-Field Transforms)を提案する。
まず、すべての画素に対して双方向のボリュームを構築し、予測された両側フローを用いて相関関係を検索する。
第2に、入力フレーム上で逆向きのワープを行うために、一対の更新された粗い流れから細粒度の流れ場の複数のグループを導出する。
論文 参考訳(メタデータ) (2023-04-19T16:18:47Z) - Improving Cross-modal Alignment for Text-Guided Image Inpainting [36.1319565907582]
テキスト誘導画像塗装(TGII)は、損傷した画像中の与えられたテキストに基づいて、行方不明領域を復元することを目的としている。
クロスモーダルアライメントを改善することで,TGIIの新たなモデルを提案する。
我々のモデルは、他の強力な競合相手と比較して最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-01-26T19:18:27Z) - TokenFlow: Rethinking Fine-grained Cross-modal Alignment in
Vision-Language Retrieval [30.429340065755436]
我々は, 細粒度クロスモーダルアライメントのためのモデルに依存しない新しい定式化を考案した。
最適輸送理論に着想を得て,提案手法のインスタンス化であるemphTokenFlowを紹介した。
論文 参考訳(メタデータ) (2022-09-28T04:11:05Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - Retrieve Fast, Rerank Smart: Cooperative and Joint Approaches for
Improved Cross-Modal Retrieval [80.35589927511667]
画像中のすべての単語やオブジェクトに係わるクロスアテンション機構を備えたTransformerベースのアーキテクチャを頼りに、クロスモーダル検索プロセスのテキストとビジュアルインプットへの最先端のアプローチ。
事前学習したテキスト画像のマルチモーダルモデルを効率的な検索モデルに変換する新しい微調整フレームワークを提案する。
我々は,モノリンガル,マルチリンガル,ゼロショットにおける一連の標準クロスモーダル検索ベンチマーク実験を行い,最先端クロスエンコーダに対する精度向上と大幅な効率向上を実証した。
論文 参考訳(メタデータ) (2021-03-22T15:08:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。