論文の概要: Efficient Image Captioning for Edge Devices
- arxiv url: http://arxiv.org/abs/2212.08985v1
- Date: Sun, 18 Dec 2022 01:56:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 17:33:51.635974
- Title: Efficient Image Captioning for Edge Devices
- Title(参考訳): エッジデバイスのための効率的な画像キャプション
- Authors: Ning Wang, Jiangrong Xie, Hang Luo, Qinglin Cheng, Jihao Wu, Mingbo
Jia, Linlin Li
- Abstract要約: リソース制限されたデバイスのための軽量画像キャプタであるLightCapを提案する。
コア設計は、画像キャプションを効率的にするための最近のCLIPモデルに基づいている。
慎重に設計されたアーキテクチャでは、モデルのサイズを75%以上、FLOPを98%以上削減するパラメータが40万以上しか含まれていない。
- 参考スコア(独自算出の注目度): 8.724184244203892
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent years have witnessed the rapid progress of image captioning. However,
the demands for large memory storage and heavy computational burden prevent
these captioning models from being deployed on mobile devices. The main
obstacles lie in the heavyweight visual feature extractors (i.e., object
detectors) and complicated cross-modal fusion networks. To this end, we propose
LightCap, a lightweight image captioner for resource-limited devices. The core
design is built on the recent CLIP model for efficient image captioning. To be
specific, on the one hand, we leverage the CLIP model to extract the compact
grid features without relying on the time-consuming object detectors. On the
other hand, we transfer the image-text retrieval design of CLIP to image
captioning scenarios by devising a novel visual concept extractor and a
cross-modal modulator. We further optimize the cross-modal fusion model and
parallel prediction heads via sequential and ensemble distillations. With the
carefully designed architecture, our model merely contains 40M parameters,
saving the model size by more than 75% and the FLOPs by more than 98% in
comparison with the current state-of-the-art methods. In spite of the low
capacity, our model still exhibits state-of-the-art performance on prevalent
datasets, e.g., 136.6 CIDEr on COCO Karpathy test split. Testing on the
smartphone with only a single CPU, the proposed LightCap exhibits a fast
inference speed of 188ms per image, which is ready for practical applications.
- Abstract(参考訳): 近年、画像キャプションの急速な進歩が見られた。
しかし、大きなメモリストレージと重い計算負荷の要求は、これらのキャプションモデルがモバイルデバイスにデプロイされることを妨げている。
主な障害は、ヘビーウェイトな視覚特徴抽出器(オブジェクト検出器)と複雑なクロスモーダル融合ネットワークにある。
そこで本稿では,リソース制限型デバイス用の軽量画像キャプションであるlightcapを提案する。
コア設計は、画像キャプションを効率的にするための最近のCLIPモデルに基づいている。
具体的に言うと、我々はCLIPモデルを利用して、時間を要する物体検出器に頼ることなく、コンパクトグリッドの特徴を抽出する。
一方,新しい視覚概念抽出器とクロスモーダル変調器を考案することにより,CLIPの画像テキスト検索設計を画像キャプションシナリオに変換する。
さらに, 逐次およびアンサンブル蒸留による相互拡散モデルと並列予測ヘッドを最適化する。
注意深く設計されたアーキテクチャでは、モデルは単に40mのパラメータしか含んでおらず、モデルサイズを75%以上、フロップスを98%以上削減しています。
キャパシティが低いにもかかわらず、当社のモデルは、CoCO Karpathyテストのスプリットにおける136.6 CIDErなど、一般的なデータセット上での最先端のパフォーマンスを示している。
単一のcpuでスマートフォンでテストすると、提案されているlightcapは1イメージあたり188ミリ秒の高速推論速度を示し、実用的なアプリケーションの準備が整っている。
関連論文リスト
- Leveraging Representations from Intermediate Encoder-blocks for Synthetic Image Detection [13.840950434728533]
SID(State-of-the-art Synthetic Image Detection)研究は、基礎モデルからの特徴抽出の利点を強く証明している。
軽量ネットワークを介してCLIPの画像エンコーダの中間トランスフォーマーブロックから抽出した画像表現を利用する。
本手法は,20個のテストデータセットで評価し,平均+10.6%の絶対性能向上を示すことにより,最先端の手法と比較した。
論文 参考訳(メタデータ) (2024-02-29T12:18:43Z) - MCAD: Multi-teacher Cross-modal Alignment Distillation for efficient image-text retrieval [7.233106731197739]
本稿では,MCAD(Multi-Teacher Cross-modality Alignment Distillation)手法を提案する。
Snapdragon/Dimensityチップ上での軽量CLIPモデルを実装し,動作メモリが$sim$100M,検索遅延が$sim$8.0msである。
論文 参考訳(メタデータ) (2023-10-30T15:38:43Z) - Implicit Temporal Modeling with Learnable Alignment for Video
Recognition [95.82093301212964]
本稿では,極めて高い性能を達成しつつ,時間的モデリングの労力を最小限に抑える新しいImplicit Learnable Alignment(ILA)法を提案する。
ILAはKineetics-400の88.7%で、Swin-LやViViT-Hに比べてFLOPははるかに少ない。
論文 参考訳(メタデータ) (2023-04-20T17:11:01Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - GIT: A Generative Image-to-text Transformer for Vision and Language [138.91581326369837]
我々は、画像/映像キャプションや質問応答などの視覚言語タスクを統合するために、生成画像からテキストへ変換するGITを訓練する。
われわれのモデルはTextCaps(CIDErで138.2対125.5)で初めて人間のパフォーマンスを上回った。
論文 参考訳(メタデータ) (2022-05-27T17:03:38Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - ImageSig: A signature transform for ultra-lightweight image recognition [0.0]
ImageSigは計算シグネチャに基づいており、畳み込み構造やアテンションベースのエンコーダを必要としない。
ImageSigはRaspberry PiやJetson-nanoのようなハードウェアで前例のないパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-05-13T23:48:32Z) - Leaner and Faster: Two-Stage Model Compression for Lightweight
Text-Image Retrieval [18.088550230146247]
現在のテキストイメージアプローチ(例えば、CLIP)は、通常、デュアルエンコーダアーキテクチャのus-ing事前訓練された視覚言語表現を採用する。
そこで本研究では,テキスト画像検索のために,大規模な事前学習型デュアルエンコーダを圧縮するための有効な2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-29T07:29:06Z) - Injecting Semantic Concepts into End-to-End Image Captioning [61.41154537334627]
本稿では、地域特徴を抽出することなくグリッド表現を使用する、純粋視覚変換器を用いた画像キャプションモデルViTCAPを提案する。
性能向上のために,意味論的概念を予測し,それをエンドツーエンドのキャプションに組み込む新しいコンセプトトークンネットワーク(CTN)を導入する。
特に、CTNは視覚変換器に基づいて構築され、分類タスクを通じて概念トークンを予測するように設計されている。
論文 参考訳(メタデータ) (2021-12-09T22:05:05Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。