論文の概要: Effective End-to-End Vision Language Pretraining with Semantic Visual
Loss
- arxiv url: http://arxiv.org/abs/2301.07236v1
- Date: Wed, 18 Jan 2023 00:22:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-01-19 17:11:59.329770
- Title: Effective End-to-End Vision Language Pretraining with Semantic Visual
Loss
- Title(参考訳): セマンティック視覚損失を用いた効果的なエンドツーエンド視覚言語
- Authors: Xiaofeng Yang, Fayao Liu, Guosheng Lin
- Abstract要約: 現在の視覚言語事前学習モデルは、物体検出器から抽出された領域視覚特徴を用いた手法によって支配されている。
3種類の視覚的損失を導入し、より高速な収束と微調整精度の向上を実現した。
リージョン機能モデルと比較して、私たちのエンドツーエンドモデルは、下流タスクで同様のあるいはより良いパフォーマンスを実現し、推論中に10倍以上高速に動作します。
- 参考スコア(独自算出の注目度): 58.642954383282216
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current vision language pretraining models are dominated by methods using
region visual features extracted from object detectors. Given their good
performance, the extract-then-process pipeline significantly restricts the
inference speed and therefore limits their real-world use cases. However,
training vision language models from raw image pixels is difficult, as the raw
image pixels give much less prior knowledge than region features. In this
paper, we systematically study how to leverage auxiliary visual pretraining
tasks to help training end-to-end vision language models. We introduce three
types of visual losses that enable much faster convergence and better
finetuning accuracy. Compared with region feature models, our end-to-end models
could achieve similar or better performance on downstream tasks and run more
than 10 times faster during inference. Compared with other end-to-end models,
our proposed method could achieve similar or better performance when pretrained
for only 10% of the pretraining GPU hours.
- Abstract(参考訳): 現在の視覚言語事前学習モデルは、物体検出器から抽出された領域視覚特徴を用いた手法によって支配されている。
優れた性能のため、抽出プロセスパイプラインは推論速度を著しく制限し、したがって実際のユースケースを制限する。
しかし、原画像画素から視覚言語モデルを訓練することは困難であり、原画像画素は地域特性よりも事前知識がはるかに少ない。
本稿では,視覚言語モデルの学習を支援するために,補助的な視覚前訓練タスクをどのように活用するかを体系的に研究する。
3種類の視覚的損失を導入し、より高速な収束と精度の向上を実現した。
リージョン機能モデルと比較して、私たちのエンドツーエンドモデルは、下流タスクで同様のあるいはより良いパフォーマンスを実現し、推論中に10倍以上高速に動作します。
提案手法は,他のエンドツーエンドモデルと比較して,事前学習中のGPU時間のうち10%しか事前トレーニングを行ない,同様の,あるいはより良い性能を実現することができる。
関連論文リスト
- Improved Alignment of Modalities in Large Vision Language Models [1.4561960744147884]
本稿では,自動回帰視覚言語モデルの学習戦略を提案する。
視覚モデルを言語モデルと整合させるための4つの訓練段階を提案する。
また、トランスフォーマーベースの言語モデルをトレーニングするための異なる注意マスクも考案した。
論文 参考訳(メタデータ) (2025-03-25T09:59:46Z) - Should VLMs be Pre-trained with Image Data? [54.50406730361859]
画像とテキストデータの混在による事前学習により、モデルが視覚言語タスクでより良いパフォーマンスを発揮できることがわかった。
平均6つの多様なタスクにおいて、1Bモデルに対して、事前学習による視覚トークンの80%を導入すると、完全に事前訓練されたモデルに視覚トークンを導入するよりも平均2%改善されることがわかった。
論文 参考訳(メタデータ) (2025-03-10T17:58:19Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - ELIP: Efficient Language-Image Pre-training with Fewer Vision Tokens [75.09406436851445]
本稿では,言語出力の監督による影響の少ないトークンを除去するために,視覚トークンのプルーニングとマージ手法ELIPを提案する。
実験により、12層のViT層に30$%のビジョントークンが削除されたことにより、ELIPは著しく同等のパフォーマンスを維持した。
論文 参考訳(メタデータ) (2023-09-28T05:31:07Z) - Making the Most of What You Have: Adapting Pre-trained Visual Language
Models in the Low-data Regime [23.255873641249263]
低データ構造におけるタスク適応について検討し、生成型ビジュアル言語モデルに対する既存の適応手法について検討する。
我々は,多数の未ラベル画像にアクセスする際に,モデル自身の予測を用いて自己改善を行うという,自己ラベル化の重要な利点を示す。
論文 参考訳(メタデータ) (2023-05-03T17:42:54Z) - Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。
本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-03-03T18:59:47Z) - Prompting Visual-Language Models for Efficient Video Understanding [28.754997650215486]
本稿では,事前学習した1つの視覚言語モデルを,最小限のトレーニングで新しいタスクに効果的に適応させる方法を提案する。
静的画像とビデオのギャップを埋めるために、フレームワイドの視覚的特徴の上に軽量なトランスフォーマーを積み重ねたテンポラリな情報をエンコードする。
論文 参考訳(メタデータ) (2021-12-08T18:58:16Z) - Align before Fuse: Vision and Language Representation Learning with
Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。
本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。
ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-16T00:19:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。