論文の概要: LightningDOT: Pre-training Visual-Semantic Embeddings for Real-Time
Image-Text Retrieval
- arxiv url: http://arxiv.org/abs/2103.08784v1
- Date: Tue, 16 Mar 2021 00:35:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-17 13:32:37.106832
- Title: LightningDOT: Pre-training Visual-Semantic Embeddings for Real-Time
Image-Text Retrieval
- Title(参考訳): LightningDOT: リアルタイム画像テキスト検索のための事前トレーニング型ビジュアルセマンティック埋め込み
- Authors: Siqi Sun, Yen-Chun Chen, Linjie Li, Shuohang Wang, Yuwei Fang,
Jingjing Liu
- Abstract要約: マルチモーダル・プレトレーニングは視覚・言語研究に大きな進歩をもたらした。
これらの大規模事前訓練されたモデルは、成功したが、トランスフォーマーアーキテクチャのクロスモーダルな注意から大きなコストがかかるため、推論速度が遅くなる。
本稿では,V+Lアプリケーションの最も成熟したシナリオである画像言語文検索(ITR)について検討する。
精度を犠牲にすることなく、数千回ITRの推論時間を加速する、シンプルで効果的なアプローチであるLightningDOTを提案します。
- 参考スコア(独自算出の注目度): 22.580069531013628
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal pre-training has propelled great advancement in
vision-and-language research. These large-scale pre-trained models, although
successful, fatefully suffer from slow inference speed due to enormous
computation cost mainly from cross-modal attention in Transformer architecture.
When applied to real-life applications, such latency and computation demand
severely deter the practical use of pre-trained models. In this paper, we study
Image-text retrieval (ITR), the most mature scenario of V+L application, which
has been widely studied even prior to the emergence of recent pre-trained
models. We propose a simple yet highly effective approach, LightningDOT that
accelerates the inference time of ITR by thousands of times, without
sacrificing accuracy. LightningDOT removes the time-consuming cross-modal
attention by pre-training on three novel learning objectives, extracting
feature indexes offline, and employing instant dot-product matching with
further re-ranking, which significantly speeds up retrieval process. In fact,
LightningDOT achieves new state of the art across multiple ITR benchmarks such
as Flickr30k, COCO and Multi30K, outperforming existing pre-trained models that
consume 1000x magnitude of computational hours. Code and pre-training
checkpoints are available at https://github.com/intersun/LightningDOT.
- Abstract(参考訳): マルチモーダル・プレトレーニングは視覚・言語研究に大きな進歩をもたらした。
これらの大規模事前訓練モデルは成功したが、トランスフォーマーアーキテクチャにおけるクロスモーダルな注意による計算コストの増大により、予測速度の低下に悩まされた。
現実のアプリケーションに適用すると、そのようなレイテンシと計算は、事前学習されたモデルの実用性を著しく阻害する。
本稿では,V+Lアプリケーションの最も成熟したシナリオである画像テキスト検索(ITR)について検討する。
精度を犠牲にすることなく、IMRの推論時間を何千回も高速化する簡易かつ高効率なLightningDOTを提案する。
lightningdotは、3つの新しい学習目標を事前学習し、特徴インデックスをオフラインで抽出し、検索プロセスを大幅に高速化するインスタントドット製品マッチングを採用することで、時間を要するクロスモーダルな注意を取り除きます。
実際、LightningDOTはFlickr30k、COCO、Multi30Kといった複数のIRRベンチマークにまたがって、1000倍の計算時間を消費する既存のトレーニング済みモデルを上回っている。
コードと事前トレーニングのチェックポイントはhttps://github.com/intersun/LightningDOT.comで公開されている。
関連論文リスト
- ReCycle: Fast and Efficient Long Time Series Forecasting with Residual Cyclic Transformers [0.06965384453064827]
ReCycleと呼ばれるResidual Cyclic Transformerは、ハイメソッドの複雑さとリアルな計算リソースのギャップを埋める。
提案手法は,低性能,低消費電力,エッジコンピューティングデバイス上でのトレーニングと推論を両立させることにより,実行時間とエネルギー消費を1桁以上削減する。
論文 参考訳(メタデータ) (2024-05-06T12:48:34Z) - Pushing the Limits of Pre-training for Time Series Forecasting in the
CloudOps Domain [54.67888148566323]
クラウドオペレーションドメインから,大規模時系列予測データセットを3つ導入する。
強力なゼロショットベースラインであり、モデルとデータセットサイズの両方において、さらなるスケーリングの恩恵を受けています。
これらのデータセットと結果を取得することは、古典的および深層学習のベースラインを事前訓練された方法と比較した総合的なベンチマーク結果の集合である。
論文 参考訳(メタデータ) (2023-10-08T08:09:51Z) - DEYOv3: DETR with YOLO for Real-time Object Detection [0.0]
ステップ・バイ・ステップ・トレーニング(Step-by-step training)と呼ばれる新しいトレーニング手法を提案する。
第1段階では、一対多で事前訓練されたYOLO検出器を使用して、エンドツーエンド検出器を初期化する。
第2段階では、バックボーンとエンコーダはDETRのようなモデルと一致しているが、検出器のみをゼロから訓練する必要がある。
論文 参考訳(メタデータ) (2023-09-21T07:49:07Z) - Disentangling Spatial and Temporal Learning for Efficient Image-to-Video
Transfer Learning [59.26623999209235]
ビデオの空間的側面と時間的側面の学習を両立させるDiSTを提案する。
DiSTの非絡み合い学習は、大量の事前学習パラメータのバックプロパゲーションを避けるため、非常に効率的である。
5つのベンチマークの大規模な実験は、DiSTが既存の最先端メソッドよりも優れたパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2023-09-14T17:58:33Z) - RanPAC: Random Projections and Pre-trained Models for Continual Learning [59.07316955610658]
継続学習(CL)は、古いタスクを忘れずに、非定常データストリームで異なるタスク(分類など)を学習することを目的としている。
本稿では,事前学習モデルを用いたCLの簡潔かつ効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-07-05T12:49:02Z) - Peeling the Onion: Hierarchical Reduction of Data Redundancy for
Efficient Vision Transformer Training [110.79400526706081]
ビジョントランス (ViT) は近年多くのアプリケーションで成功を収めているが、その計算量とメモリ使用量によって一般化が制限されている。
従来の圧縮アルゴリズムは通常、事前訓練された高密度モデルから始まり、効率的な推論のみに焦点を当てる。
本稿では,3つのスパースの観点から,Tri-Level E-ViTと呼ばれるエンドツーエンドの効率的なトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-19T21:15:47Z) - Effective and Efficient Training for Sequential Recommendation using
Recency Sampling [91.02268704681124]
本稿では,新しいRecency-based Smpling of Sequencesトレーニング目標を提案する。
提案手法により拡張されたモデルにより,最先端のBERT4Recに近い性能が得られることを示す。
論文 参考訳(メタデータ) (2022-07-06T13:06:31Z) - Exploiting Activation based Gradient Output Sparsity to Accelerate
Backpropagation in CNNs [15.465530153038927]
多くの最先端技術の背後にある原動力として、機械学習(ML/DL)ベースの技術が登場している。
しかし、大きなパラメータを含むこれらのモデルをトレーニングすることは、時間とエネルギーの両方を消費する。
論文 参考訳(メタデータ) (2021-09-16T04:12:51Z) - Self-Supervised Pretraining Improves Self-Supervised Pretraining [83.1423204498361]
自己教師付き事前トレーニングには、高価で長い計算と大量のデータが必要で、データ拡張に敏感である。
本稿では,既存の事前学習モデルを用いて事前学習プロセスを初期化することにより,収束時間を短縮し,精度を向上させる階層的事前学習(HPT)について検討する。
HPTが最大80倍速く収束し、タスク全体の精度が向上し、自己監視された事前トレーニングプロセスの堅牢性が、画像増強ポリシーまたは事前トレーニングデータの量の変化に改善されることを示します。
論文 参考訳(メタデータ) (2021-03-23T17:37:51Z) - A Practical Incremental Method to Train Deep CTR Models [37.54660958085938]
本稿では,3つの分離モジュールからなる深部CTRモデルを訓練するための実用的なインクリメンタル手法を提案する。
提案手法は従来のバッチモード学習と同等の性能を達成でき,訓練効率も向上する。
論文 参考訳(メタデータ) (2020-09-04T12:35:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。