Fugu-MT 論文翻訳(概要): BUS:Efficient and Effective Vision-language Pre-training with Bottom-Up Patch Summarization

論文の概要: BUS:Efficient and Effective Vision-language Pre-training with Bottom-Up Patch Summarization

arxiv url: http://arxiv.org/abs/2307.08504v2
Date: Sat, 24 Feb 2024 03:54:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-27 21:52:32.928805
Title: BUS:Efficient and Effective Vision-language Pre-training with Bottom-Up Patch Summarization
Title（参考訳）: BUS:ボトムアップパッチ要約による視覚言語事前学習の効率化
Authors: Chaoya Jiang, Haiyang Xu, Wei Ye, Qinghao Ye, Chenliang Li, Ming Yan, Bin Bi, Shikun Zhang, Fei Huang, Songfang Huang
Abstract要約: 本稿では,BUS という名前のボトムアップ・パッチ・サマリゼーション手法を提案し,視覚的トークン列の簡潔な要約を効率的に学習する。テキスト・セマンティックス・アウェア・パッチセレクタ(TSPS)をViTバックボーンに組み込んで粗い粒度のビジュアルトークン抽出を行う。このボトムアップコラボレーションによって、BUSは高いトレーニング効率を得られると同時に、効率性を維持したり、改善したりすることができます。
参考スコア（独自算出の注目度）: 89.52943129132217
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision Transformer (ViT) based Vision-Language Pre-training (VLP) models have demonstrated impressive performance in various tasks. However, the lengthy visual token sequences fed into ViT can lead to training inefficiency and ineffectiveness. Existing efforts address the challenge by either bottom-level patch extraction in the ViT backbone or top-level patch abstraction outside, not balancing training efficiency and effectiveness well. Inspired by text summarization in natural language processing, we propose a Bottom-Up Patch Summarization approach named BUS, coordinating bottom-level extraction and top-level abstraction to learn a concise summary of lengthy visual token sequences efficiently. Specifically, We incorporate a Text-Semantics-Aware Patch Selector (TSPS) into the ViT backbone to perform a coarse-grained visual token extraction and then attach a flexible Transformer-based Patch Abstraction Decoder (PAD) upon the backbone for top-level visual abstraction. This bottom-up collaboration enables our BUS to yield high training efficiency while maintaining or even improving effectiveness. We evaluate our approach on various visual-language understanding and generation tasks and show competitive downstream task performance while boosting the training efficiency by 50\%. Additionally, our model achieves state-of-the-art performance on many downstream tasks by increasing input image resolution without increasing computational costs over baselines.
Abstract（参考訳）: Vision Transformer (ViT) ベースのVision-Language Pre-Training (VLP) モデルは、様々なタスクで顕著なパフォーマンスを示している。しかし、ViTに供給される長い視覚トークン配列は、トレーニングの非効率性と非効率性をもたらす。既存の取り組みでは、vitバックボーンのボトムレベルパッチ抽出と、トレーニング効率と有効性のバランスをとるのではなく、外部のトップレベルパッチ抽象化のどちらでも課題に対処している。自然言語処理におけるテキスト要約に着想を得て,ボトムアップ・パッチ・サマリゼーション手法BUSを提案し,ボトムアップ・パッチ・サマリゼーションとボトムレベル抽出のコーディネートを行い,視覚的トークン列の簡潔な要約を効率的に学習する。具体的には,vitバックボーンにtsps(text-semantics-aware patch selector)を組み込んで粗粒度のビジュアルトークン抽出を行い,上位レベルのビジュアル抽象化のためのバックボーンにフレキシブルトランスフォーマベースのパッチ抽象化デコーダ(pad)をアタッチする。このボトムアップコラボレーションによって、BUSは高いトレーニング効率を得られると同時に、効率性を維持したり改善したりすることができます。様々な視覚言語理解・生成タスクに対するアプローチを評価し, 学習効率を50%向上させながら, 競争力の高い下流タスク性能を示す。さらに,入力画像の解像度を向上し,ベースラインの計算コストを増大させることなく,多くのダウンストリームタスクにおける最先端性能を実現する。

関連論文リスト

FCoT-VL:Advancing Text-oriented Large Vision-Language Models with Efficient Visual Token Compression [16.53645461974695]
現在の訓練不要なビジュアルトークン圧縮法は、高解像度画像を含むタスクにおいて深刻な性能劣化を示す。テキスト指向視覚大言語モデル(VLLM)の高解像度シナリオにおける効率的なビジュアルトークン圧縮フレームワークを提案する。提案手法は,テキスト指向ベンチマークにおいて,ベースラインよりも高い性能を保ちながら,計算オーバーヘッドを大幅に低減する。
論文参考訳（メタデータ） (2025-02-22T16:05:33Z)
Patch Ranking: Efficient CLIP by Learning to Rank Local Patches [11.225834286969283]
ViT効率を向上する現在の戦略はパッチトークンのプルーニングに重点を置いているが、CLIPのマルチモーダルな性質に対処するには不足している。我々は「黄金ランキング」を確立するための欲求探索手法を提案し、このランキングを近似するために特別に訓練された軽量な予測器を導入する。 CLIPのViTではパッチトークンの40%を削減できたが、7つのデータセットの平均精度損失は0.3に過ぎなかった。
論文参考訳（メタデータ） (2024-09-22T22:04:26Z)
VeCAF: Vision-language Collaborative Active Finetuning with Training Objective Awareness [56.87603097348203]
VeCAFはラベルと自然言語アノテーションを使用して、PVMの微調整のためのパラメトリックデータ選択を行う。 VeCAFは微調整の目的を取り入れて重要なデータポイントを選択し、PVMをより高速な収束に向けて効果的に導く。 ImageNetでは、VeCAFは最大3.3倍のトレーニングバッチを使用して、完全な微調整に比べて目標のパフォーマンスに到達する。
論文参考訳（メタデータ） (2024-01-15T17:28:37Z)
Efficient Vision-and-Language Pre-training with Text-Relevant Image Patch Selection [66.72992463712299]
Vision Transformers (ViT) は、大規模なVisionとLanguage Pre-trainingモデルで人気が高まっている。これまでの研究では、ViTsの有効性が実証されているが、長い視覚的シーケンスによって引き起こされる計算の非効率性に苦慮している。 TRIPSを導入し、視覚バックボーン内のテキスト誘導パッチ選択層を用いて視覚列を縮小する。実験の結果, TRIPSは40%の高速化を実現し, 下流タスクの競争力や優れた性能を維持していることがわかった。
論文参考訳（メタデータ） (2024-01-11T14:31:30Z)
ALIP: Adaptive Language-Image Pre-training with Synthetic Caption [78.93535202851278]
コントラスト言語-画像事前学習(CLIP)は、様々な視覚言語タスクのパフォーマンスを大幅に向上させた。 Webデータに固有のノイズと未整合画像テキストペアが存在することは、表現学習のパフォーマンスに影響を与える可能性がある。本稿では、原文と合成キャプションの両方からの監督を統合するバイパスモデルであるAdaptive Language-Image Pre-Training(ALIP)を提案する。
論文参考訳（メタデータ） (2023-08-16T15:19:52Z)
TRIPS: Efficient Vision-and-Language Pre-training with Text-Relevant Image Patch Selection [61.0662744915659]
我々は,textbfText-textbfRelevant textbfImage textbfPatch textbfSelection,すなわちTRIPSを用いた視覚・言語事前学習モデルを提案する。 TRIPSは、効率的なトレーニングと推論のために、視覚バックボーン内のテキスト誘導パッチ選択層によって、視覚的シーケンスを徐々に減少させる。
論文参考訳（メタデータ） (2023-05-08T05:53:30Z)
Learning Expressive Prompting With Residuals for Vision Transformers [11.342913284654706]
視覚変換器(ViT)の有効適応に特化して学習パラダイムを改良したEXPRES(Expressive Prompts with Residuals)を提案する。本手法は,VTABベンチマークの3/3カテゴリにおいて,画像分類,少ないショット学習,セマンティックセマンティックセマンティックセマンティクスにEXPRESを適用した。
論文参考訳（メタデータ） (2023-03-27T20:47:01Z)
Exploiting the Textual Potential from Vision-Language Pre-training for Text-based Person Search [17.360982091304137]
テキストベースPerson Search(TPS)は、歩行者を検索画像の代わりにテキスト記述にマッチさせることを目的としている。最近のビジョンランゲージ事前学習モデルは、下流のTPSタスクに伝達可能な知識をもたらすことができ、より効率的なパフォーマンス向上をもたらす。しかし、既存のTPS手法では、学習済みのビジュアルエンコーダのみを使用し、対応するテキスト表現を無視している。
論文参考訳（メタデータ） (2023-03-08T10:41:22Z)
Patch-level Representation Learning for Self-supervised Vision Transformers [68.8862419248863]
視覚変換器(ViT)は近年、より優れたアーキテクチャ選択として多くの注目を集めており、様々な視覚タスクにおいて畳み込みネットワークよりも優れています。これに触発された私たちは、パッチレベルの表現をより良く学習するための、SelfPatchという、シンプルで効果的なビジュアルプリテキストタスクを設計しました。我々は、既存のSSLメソッドの様々な視覚的タスクに対する性能を大幅に改善できることを実証した。
論文参考訳（メタデータ） (2022-06-16T08:01:19Z)
Prompting Visual-Language Models for Efficient Video Understanding [28.754997650215486]
本稿では,事前学習した1つの視覚言語モデルを,最小限のトレーニングで新しいタスクに効果的に適応させる方法を提案する。静的画像とビデオのギャップを埋めるために、フレームワイドの視覚的特徴の上に軽量なトランスフォーマーを積み重ねたテンポラリな情報をエンコードする。
論文参考訳（メタデータ） (2021-12-08T18:58:16Z)
Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文参考訳（メタデータ） (2020-04-12T09:05:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。