論文の概要: CrossGET: Cross-Guided Ensemble of Tokens for Accelerating
Vision-Language Transformers
- arxiv url: http://arxiv.org/abs/2305.17455v3
- Date: Fri, 24 Nov 2023 18:39:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 04:20:19.153626
- Title: CrossGET: Cross-Guided Ensemble of Tokens for Accelerating
Vision-Language Transformers
- Title(参考訳): crossget:視覚言語トランスフォーマーを加速するトークンのクロスガイドアンサンブル
- Authors: Dachuan Shi, Chaofan Tao, Anyi Rao, Zhendong Yang, Chun Yuan, Jiaqi
Wang
- Abstract要約: 本稿では、視覚言語変換のためのユニバーサルアクセラレーションフレームワークであるtextbfCross-textbfGuided textbfTokens (textbfemphCrossGET)について紹介する。
このフレームワークは、リアルタイムのクロスモーダルガイダンスを通じてトークンを適応的に結合し、高い性能を維持しながら実質的な加速を実現する。
- 参考スコア(独自算出の注目度): 56.39699688879299
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent vision-language models have achieved tremendous progress far beyond
what we ever expected. However, their computational costs are also dramatically
growing with rapid development, especially for the large models. It makes model
acceleration exceedingly critical in a scenario of limited resources. Although
extensively studied for unimodal models, the acceleration for multimodal
models, especially the vision-language Transformers, is relatively
under-explored. To pursue more efficient and accessible vision-language
Transformers, this paper introduces \textbf{Cross}-\textbf{G}uided
\textbf{E}nsemble of \textbf{T}okens (\textbf{\emph{CrossGET}}), a universal
acceleration framework for vision-language Transformers. This framework
adaptively combines tokens through real-time, cross-modal guidance, thereby
achieving substantial acceleration while keeping high performance.
\textit{CrossGET} has two key innovations: 1) \textit{Cross-Guided Matching and
Ensemble}. \textit{CrossGET} incorporates cross-modal guided token matching and
ensemble to exploit cross-modal information effectively, only introducing
cross-modal tokens with negligible extra parameters. 2) \textit{Complete-Graph
Soft Matching}. In contrast to the existing bipartite soft matching approach,
\textit{CrossGET} introduces a complete-graph soft matching policy to achieve
more reliable token-matching results while maintaining parallelizability and
high efficiency. Extensive experiments are conducted on various vision-language
tasks, including image-text retrieval, visual reasoning, image captioning, and
visual question answering. Performance on both classic multimodal architectures
and emerging multimodal LLMs demonstrate the effectiveness and versatility of
the proposed \textit{CrossGET} framework. The code will be at
\url{https://github.com/sdc17/CrossGET}.
- Abstract(参考訳): 最近のビジョン言語モデルは、私たちが予想した以上に大きな進歩を遂げました。
しかし、その計算コストは、特に大規模モデルにおいて、急速な発展とともに劇的に増大している。
限られた資源のシナリオでは、モデル加速が極めて重要である。
ユニモーダルモデルについて広範囲に研究されているが、マルチモーダルモデル、特に視覚言語トランスフォーマーの加速は比較的過小評価されている。
より効率的で使いやすい視覚言語トランスフォーマーを追求するため,本稿では視覚言語トランスフォーマーのための普遍的加速フレームワークである \textbf{cross}-\textbf{g}uided \textbf{e}nsemble of \textbf{t}okens (\textbf{\emph{crossget}})を紹介する。
このフレームワークは、リアルタイムのクロスモーダルガイダンスを通じてトークンを適応的に組み合わせ、高い性能を維持しながら実質的な加速を実現する。
\textit{CrossGET} には2つの重要な革新がある。
1) \textit{Cross-Guided Matching and Ensemble}
\textit{CrossGET}は、クロスモーダルなトークンマッチングとアンサンブルを組み込んで、クロスモーダルな情報を効果的に活用する。
2) \textit{Complete-Graph Soft Matching}。
既存の二部作のソフトマッチングアプローチとは対照的に, \textit{CrossGET} では, 並列化性と高効率性を維持しつつ, より信頼性の高いトークンマッチング結果を実現するために, 完全グラフのソフトマッチングポリシーを導入している。
画像テキスト検索、視覚的推論、画像キャプション、視覚的質問応答など、様々な視覚言語タスクに関する広範な実験が行われている。
古典的マルチモーダルアーキテクチャと新興マルチモーダル LLM の性能は,提案した \textit{CrossGET} フレームワークの有効性と汎用性を示している。
コードは \url{https://github.com/sdc17/CrossGET} にある。
関連論文リスト
- CL2CM: Improving Cross-Lingual Cross-Modal Retrieval via Cross-Lingual
Knowledge Transfer [23.58317401302547]
本稿では,言語間移動を用いた視覚と対象言語間のアライメントを改善する汎用フレームワークCL2CMを提案する。
提案手法は,Multi30KとMSCOCOの2つの多言語画像テキストデータセットと,ビデオテキストデータセットVATEXである。
論文 参考訳(メタデータ) (2023-12-14T14:29:53Z) - Fast-StrucTexT: An Efficient Hourglass Transformer with Modality-guided
Dynamic Token Merge for Document Understanding [40.322453628755376]
一般的な効率的な変換器は、直接モデル文書に適合させることが困難である。
Fast-StrucTexTは、時間ガラストランスアーキテクチャを備えたStrucTexTアルゴリズムに基づく効率的なマルチモーダルフレームワークである。
提案モデルでは,最先端の手法よりも約1.9倍高速な推論時間を実現する。
論文 参考訳(メタデータ) (2023-05-19T02:42:35Z) - AMT: All-Pairs Multi-Field Transforms for Efficient Frame Interpolation [80.33846577924363]
ビデオフレームギスブのための新しいネットワークアーキテクチャであるAMT(All-Pairs Multi-Field Transforms)を提案する。
まず、すべての画素に対して双方向のボリュームを構築し、予測された両側フローを用いて相関関係を検索する。
第2に、入力フレーム上で逆向きのワープを行うために、一対の更新された粗い流れから細粒度の流れ場の複数のグループを導出する。
論文 参考訳(メタデータ) (2023-04-19T16:18:47Z) - Improving Cross-modal Alignment for Text-Guided Image Inpainting [36.1319565907582]
テキスト誘導画像塗装(TGII)は、損傷した画像中の与えられたテキストに基づいて、行方不明領域を復元することを目的としている。
クロスモーダルアライメントを改善することで,TGIIの新たなモデルを提案する。
我々のモデルは、他の強力な競合相手と比較して最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-01-26T19:18:27Z) - TokenFlow: Rethinking Fine-grained Cross-modal Alignment in
Vision-Language Retrieval [30.429340065755436]
我々は, 細粒度クロスモーダルアライメントのためのモデルに依存しない新しい定式化を考案した。
最適輸送理論に着想を得て,提案手法のインスタンス化であるemphTokenFlowを紹介した。
論文 参考訳(メタデータ) (2022-09-28T04:11:05Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - Retrieve Fast, Rerank Smart: Cooperative and Joint Approaches for
Improved Cross-Modal Retrieval [80.35589927511667]
画像中のすべての単語やオブジェクトに係わるクロスアテンション機構を備えたTransformerベースのアーキテクチャを頼りに、クロスモーダル検索プロセスのテキストとビジュアルインプットへの最先端のアプローチ。
事前学習したテキスト画像のマルチモーダルモデルを効率的な検索モデルに変換する新しい微調整フレームワークを提案する。
我々は,モノリンガル,マルチリンガル,ゼロショットにおける一連の標準クロスモーダル検索ベンチマーク実験を行い,最先端クロスエンコーダに対する精度向上と大幅な効率向上を実証した。
論文 参考訳(メタデータ) (2021-03-22T15:08:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。