論文の概要: BUS:Efficient and Effective Vision-language Pre-training with Bottom-Up
Patch Summarization
- arxiv url: http://arxiv.org/abs/2307.08504v2
- Date: Sat, 24 Feb 2024 03:54:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 21:52:32.928805
- Title: BUS:Efficient and Effective Vision-language Pre-training with Bottom-Up
Patch Summarization
- Title(参考訳): BUS:ボトムアップパッチ要約による視覚言語事前学習の効率化
- Authors: Chaoya Jiang, Haiyang Xu, Wei Ye, Qinghao Ye, Chenliang Li, Ming Yan,
Bin Bi, Shikun Zhang, Fei Huang, Songfang Huang
- Abstract要約: 本稿では,BUS という名前のボトムアップ・パッチ・サマリゼーション手法を提案し,視覚的トークン列の簡潔な要約を効率的に学習する。
テキスト・セマンティックス・アウェア・パッチセレクタ(TSPS)をViTバックボーンに組み込んで粗い粒度のビジュアルトークン抽出を行う。
このボトムアップコラボレーションによって、BUSは高いトレーニング効率を得られると同時に、効率性を維持したり、改善したりすることができます。
- 参考スコア(独自算出の注目度): 89.52943129132217
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformer (ViT) based Vision-Language Pre-training (VLP) models have
demonstrated impressive performance in various tasks. However, the lengthy
visual token sequences fed into ViT can lead to training inefficiency and
ineffectiveness. Existing efforts address the challenge by either bottom-level
patch extraction in the ViT backbone or top-level patch abstraction outside,
not balancing training efficiency and effectiveness well. Inspired by text
summarization in natural language processing, we propose a Bottom-Up Patch
Summarization approach named BUS, coordinating bottom-level extraction and
top-level abstraction to learn a concise summary of lengthy visual token
sequences efficiently. Specifically, We incorporate a Text-Semantics-Aware
Patch Selector (TSPS) into the ViT backbone to perform a coarse-grained visual
token extraction and then attach a flexible Transformer-based Patch Abstraction
Decoder (PAD) upon the backbone for top-level visual abstraction. This
bottom-up collaboration enables our BUS to yield high training efficiency while
maintaining or even improving effectiveness. We evaluate our approach on
various visual-language understanding and generation tasks and show competitive
downstream task performance while boosting the training efficiency by 50\%.
Additionally, our model achieves state-of-the-art performance on many
downstream tasks by increasing input image resolution without increasing
computational costs over baselines.
- Abstract(参考訳): Vision Transformer (ViT) ベースのVision-Language Pre-Training (VLP) モデルは、様々なタスクで顕著なパフォーマンスを示している。
しかし、ViTに供給される長い視覚トークン配列は、トレーニングの非効率性と非効率性をもたらす。
既存の取り組みでは、vitバックボーンのボトムレベルパッチ抽出と、トレーニング効率と有効性のバランスをとるのではなく、外部のトップレベルパッチ抽象化のどちらでも課題に対処している。
自然言語処理におけるテキスト要約に着想を得て,ボトムアップ・パッチ・サマリゼーション手法BUSを提案し,ボトムアップ・パッチ・サマリゼーションとボトムレベル抽出のコーディネートを行い,視覚的トークン列の簡潔な要約を効率的に学習する。
具体的には,vitバックボーンにtsps(text-semantics-aware patch selector)を組み込んで粗粒度のビジュアルトークン抽出を行い,上位レベルのビジュアル抽象化のためのバックボーンにフレキシブルトランスフォーマベースのパッチ抽象化デコーダ(pad)をアタッチする。
このボトムアップコラボレーションによって、BUSは高いトレーニング効率を得られると同時に、効率性を維持したり改善したりすることができます。
様々な視覚言語理解・生成タスクに対するアプローチを評価し, 学習効率を50%向上させながら, 競争力の高い下流タスク性能を示す。
さらに,入力画像の解像度を向上し,ベースラインの計算コストを増大させることなく,多くのダウンストリームタスクにおける最先端性能を実現する。
関連論文リスト
- GoMatching: A Simple Baseline for Video Text Spotting via Long and Short
Term Matching [63.92600699525989]
ビデオテキストスポッティングは、トラッキングを含むことで、さらなる課題を提示する。
GoMatchingは、強力な認識性能を維持しながら、トラッキングのトレーニングに重点を置いている。
ICDAR15ビデオデータセットに新しい記録を設定し、任意の形のテキストで新しいテストセットをセットした。
論文 参考訳(メタデータ) (2024-01-13T13:59:15Z) - ALIP: Adaptive Language-Image Pre-training with Synthetic Caption [78.93535202851278]
コントラスト言語-画像事前学習(CLIP)は、様々な視覚言語タスクのパフォーマンスを大幅に向上させた。
Webデータに固有のノイズと未整合画像テキストペアが存在することは、表現学習のパフォーマンスに影響を与える可能性がある。
本稿では、原文と合成キャプションの両方からの監督を統合するバイパスモデルであるAdaptive Language-Image Pre-Training(ALIP)を提案する。
論文 参考訳(メタデータ) (2023-08-16T15:19:52Z) - TVTSv2: Learning Out-of-the-box Spatiotemporal Visual Representations at
Scale [59.01246141215051]
言語指導の観点から,その劣化要因を分析した。
本稿では,テキストエンコーダの一般化能力を維持するために,教師なし事前学習戦略を提案する。
最大10億のパラメータを持つTVTSv2と呼ばれる一連のモデルを作成します。
論文 参考訳(メタデータ) (2023-05-23T15:44:56Z) - CAVL: Learning Contrastive and Adaptive Representations of Vision and
Language [10.57079240576682]
視覚的および言語的事前学習は、視覚と言語表現を一緒に学習することを目的としている。
現在の事前訓練されたモデルでは、下流のタスクに転送する際、微調整のために多くの計算資源を必要とする傾向にある。
我々は、視覚と言語、すなわちCAVLのコントラスト表現と適応表現の学習に、シンプルだが効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-04-10T05:54:03Z) - Learning Expressive Prompting With Residuals for Vision Transformers [11.342913284654706]
視覚変換器(ViT)の有効適応に特化して学習パラダイムを改良したEXPRES(Expressive Prompts with Residuals)を提案する。
本手法は,VTABベンチマークの3/3カテゴリにおいて,画像分類,少ないショット学習,セマンティックセマンティックセマンティックセマンティクスにEXPRESを適用した。
論文 参考訳(メタデータ) (2023-03-27T20:47:01Z) - Exploiting the Textual Potential from Vision-Language Pre-training for
Text-based Person Search [17.360982091304137]
テキストベースPerson Search(TPS)は、歩行者を検索画像の代わりにテキスト記述にマッチさせることを目的としている。
最近のビジョンランゲージ事前学習モデルは、下流のTPSタスクに伝達可能な知識をもたらすことができ、より効率的なパフォーマンス向上をもたらす。
しかし、既存のTPS手法では、学習済みのビジュアルエンコーダのみを使用し、対応するテキスト表現を無視している。
論文 参考訳(メタデータ) (2023-03-08T10:41:22Z) - Patch-level Representation Learning for Self-supervised Vision
Transformers [68.8862419248863]
視覚変換器(ViT)は近年、より優れたアーキテクチャ選択として多くの注目を集めており、様々な視覚タスクにおいて畳み込みネットワークよりも優れています。
これに触発された私たちは、パッチレベルの表現をより良く学習するための、SelfPatchという、シンプルで効果的なビジュアルプリテキストタスクを設計しました。
我々は、既存のSSLメソッドの様々な視覚的タスクに対する性能を大幅に改善できることを実証した。
論文 参考訳(メタデータ) (2022-06-16T08:01:19Z) - Prompting Visual-Language Models for Efficient Video Understanding [28.754997650215486]
本稿では,事前学習した1つの視覚言語モデルを,最小限のトレーニングで新しいタスクに効果的に適応させる方法を提案する。
静的画像とビデオのギャップを埋めるために、フレームワイドの視覚的特徴の上に軽量なトランスフォーマーを積み重ねたテンポラリな情報をエンコードする。
論文 参考訳(メタデータ) (2021-12-08T18:58:16Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。