論文の概要: ExpansionNet v2: Block Static Expansion in fast end to end training for
Image Captioning
- arxiv url: http://arxiv.org/abs/2208.06551v1
- Date: Sat, 13 Aug 2022 02:50:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-16 13:47:14.829340
- Title: ExpansionNet v2: Block Static Expansion in fast end to end training for
Image Captioning
- Title(参考訳): ExpansionNet v2: Image Captioningのための高速エンドツーエンドトレーニングにおけるブロック静的拡張
- Authors: Jia Cheng Hu, Roberto Cavicchioli, Alessandro Capotondi
- Abstract要約: 深層学習手法における入力長における性能ボトルネックの可能性を探る。
本稿では,不均一で大容量なシーケンスの集合上に入力を分散処理するBlock Static Expansionを提案する。
我々は,画像キャプションにおける最近の作業の標準的なアプローチに比べて,有効であるだけでなく,6倍高速であるように設計されたExpansionNet v2という新しいモデルを紹介した。
- 参考スコア(独自算出の注目度): 69.3939291118954
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Expansion methods explore the possibility of performance bottlenecks in the
input length in Deep Learning methods. In this work, we introduce the Block
Static Expansion which distributes and processes the input over a heterogeneous
and arbitrarily big collection of sequences characterized by a different length
compared to the input one. From this method we introduce a new model called
ExpansionNet v2, which is trained using our new training strategy, designed to
be not only effective but also 6 times faster compared to the standard approach
of recent works in Image Captioning. Our new model achieves the state of art
performance over the MS-COCO 2014 captioning challenge with a score of 143.7
CIDEr-D in the offline test split, 140.8 CIDEr-D in the online evaluation
server and 72.9 All-CIDEr on the nocaps validation set. Source code available
at: https://github.com/jchenghu/ExpansionNet_v2
- Abstract(参考訳): 深層学習手法における入力長における性能ボトルネックの可能性を探る。
本研究では,入力と異なる長さで特徴付けられる不均一かつ任意に大きな列の集合に対して,入力を分散処理するブロック静的展開を導入する。
そこで本研究では, 画像キャプションにおける従来の手法に比べて, 有効性だけでなく, 6倍の高速化が期待できる拡張ネットv2モデルを提案する。
オンライン評価サーバでは140.8 CIDEr-D,nocaps Validationセットでは72.9 All-CIDEr,オフラインテストスプリットでは143.7 CIDEr-D,nocaps Validationセットでは72.9 All-CIDErである。
ソースコード: https://github.com/jchenghu/expansionnet_v2
関連論文リスト
- Linear Alignment of Vision-language Models for Image Captioning [9.746397419479447]
本稿では,CLIPのイメージとテキストの埋め込みを線形にマッピングする,より効率的なトレーニングプロトコルを提案する。
これにより、勾配計算の必要性を回避し、ReCapと呼ばれる軽量キャプション方式が実現される。
ReCap on MS-COCO, Flickr30k, VizWiz, MSRVTT。
論文 参考訳(メタデータ) (2023-07-10T17:59:21Z) - Dynamic Perceiver for Efficient Visual Recognition [87.08210214417309]
特徴抽出手順と早期分類タスクを分離する動的知覚器(Dyn-Perceiver)を提案する。
特徴ブランチは画像の特徴を抽出し、分類ブランチは分類タスクに割り当てられた遅延コードを処理する。
早期出口は分類枝に限られており、低レベルの特徴において線形分離性は不要である。
論文 参考訳(メタデータ) (2023-06-20T03:00:22Z) - Open-Vocabulary Semantic Segmentation with Decoupled One-Pass Network [26.97153244517095]
入力画像の視覚言語モデルに1つのパスしか必要としないネットワークを提案する。
本稿ではまず,事前学習した視覚エンコーダにおけるパッチ埋め込み間の有害な干渉を抑制するために,パッチ重大度と呼ばれる新しいネットワーク適応手法を提案する。
そこで我々は,ネットワークがより差別的な特徴に着目するよう促すために,分類アンカー学習を提案する。
論文 参考訳(メタデータ) (2023-04-03T17:59:21Z) - Exploring Discrete Diffusion Models for Image Captioning [104.69608826164216]
DDCapと呼ばれる拡散型キャプションモデルを提案する。
本稿では,ベストファースト推論,集中注意マスク,テキスト長予測,画像のないトレーニングなど,いくつかの重要な手法を提案する。
4Mビジョン言語による事前学習画像とベースサイズのモデルを用いて,COCO上のCIDErスコア125.1に達する。
論文 参考訳(メタデータ) (2022-11-21T18:12:53Z) - Progressive Tree-Structured Prototype Network for End-to-End Image
Captioning [74.8547752611337]
本稿では,新しいプログレッシブツリー構造型プロトタイプネットワーク(PTSN)を提案する。
PTSNは、階層的テキスト意味論をモデル化することによって、適切な意味論で予測語の範囲を狭める最初の試みである。
提案手法は,144.2%(シングルモデル),146.5%(4モデルのアンサンブル),141.4%(c5),143.9%(c40)のCIDErを公式オンラインテストサーバ上でスコアする。
論文 参考訳(メタデータ) (2022-11-17T11:04:00Z) - ExpansionNet: exploring the sequence length bottleneck in the
Transformer for Image Captioning [0.0]
本稿では,入力シーケンスを動的あるいは静的に,異なるシーケンス長を持つ新しいメソッドに変換する拡張メカニズム'を提案する。
このような手法を利用して,MS-COCO 2014データセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-07-07T14:37:02Z) - End-to-End Supermask Pruning: Learning to Prune Image Captioning Models [17.00974730372399]
80%から95%のスパースネットワークが、その密度の高いネットワークにマッチするか、より優れているかを示す。
Up-Down と Object Relation Transformer のコードと事前訓練されたモデルは、MS-COCO データセット上で CIDEr スコア >120 を達成することができる。
論文 参考訳(メタデータ) (2021-10-07T09:34:00Z) - BiO-Net: Learning Recurrent Bi-directional Connections for
Encoder-Decoder Architecture [82.64881585566825]
本稿では,新たな双方向O字型ネットワーク(BiO-Net)を提案する。
提案手法は,バニラU-Netおよび他の最先端手法よりも優れる。
論文 参考訳(メタデータ) (2020-07-01T05:07:49Z) - ResNeSt: Split-Attention Networks [86.25490825631763]
このアーキテクチャは、異なるネットワークブランチにチャンネルワイズを応用し、機能間相互作用のキャプチャと多様な表現の学習の成功を活用する。
我々のモデルはResNeStと呼ばれ、画像分類の精度と遅延トレードオフにおいてEfficientNetより優れています。
論文 参考訳(メタデータ) (2020-04-19T20:40:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。