論文の概要: ExpansionNet v2: Block Static Expansion in fast end to end training for
Image Captioning
- arxiv url: http://arxiv.org/abs/2208.06551v2
- Date: Tue, 16 Aug 2022 11:28:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-17 10:21:55.693673
- Title: ExpansionNet v2: Block Static Expansion in fast end to end training for
Image Captioning
- Title(参考訳): ExpansionNet v2: Image Captioningのための高速エンドツーエンドトレーニングにおけるブロック静的拡張
- Authors: Jia Cheng Hu, Roberto Cavicchioli, Alessandro Capotondi
- Abstract要約: 我々は、不均一で任意に大きなシーケンスの集合に入力を分散し、処理するブロック静的拡張を導入する。
この手法を採用することで、ExpandsionNet v2と呼ばれるモデルを導入し、新しいトレーニング戦略を用いてトレーニングする。
このモデルは、オフラインテストスプリットで143.7 CIDEr-D、オンライン評価サーバで140.8 CIDEr-D、nocaps検証セットで72.9 All-CIDErのスコアで、MS-COCO 2014キャプションの課題に対して、アートパフォーマンスの状態を達成している。
- 参考スコア(独自算出の注目度): 69.3939291118954
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Expansion methods explore the possibility of performance bottlenecks in the
input length in Deep Learning methods. In this work, we introduce the Block
Static Expansion which distributes and processes the input over a heterogeneous
and arbitrarily big collection of sequences characterized by a different length
compared to the input one. Adopting this method we introduce a model called
ExpansionNet v2, which is trained using our novel training strategy, designed
to be not only effective but also 6 times faster compared to the standard
approach of recent works in Image Captioning. The model achieves the state of
art performance over the MS-COCO 2014 captioning challenge with a score of
143.7 CIDEr-D in the offline test split, 140.8 CIDEr-D in the online evaluation
server and 72.9 All-CIDEr on the nocaps validation set. Source code available
at: https://github.com/jchenghu/ExpansionNet_v2
- Abstract(参考訳): 深層学習手法における入力長における性能ボトルネックの可能性を探る。
本研究では,入力と異なる長さで特徴付けられる不均一かつ任意に大きな列の集合に対して,入力を分散処理するブロック静的展開を導入する。
この手法を採用することで,最近の画像キャプションにおける標準手法と比較して,有効性だけでなく,6倍の高速化が期待できる拡張ネットv2モデルを提案する。
このモデルは、オフラインテストスプリットで143.7 CIDEr-D、オンライン評価サーバで140.8 CIDEr-D、nocaps検証セットで72.9 All-CIDErのスコアで、MS-COCO 2014キャプションの課題に対して、アートパフォーマンスの状態を達成している。
ソースコード: https://github.com/jchenghu/expansionnet_v2
関連論文リスト
- Linear Alignment of Vision-language Models for Image Captioning [9.746397419479447]
本稿では,CLIPのイメージとテキストの埋め込みを線形にマッピングする,より効率的なトレーニングプロトコルを提案する。
これにより、勾配計算の必要性を回避し、ReCapと呼ばれる軽量キャプション方式が実現される。
ReCap on MS-COCO, Flickr30k, VizWiz, MSRVTT。
論文 参考訳(メタデータ) (2023-07-10T17:59:21Z) - Dynamic Perceiver for Efficient Visual Recognition [87.08210214417309]
特徴抽出手順と早期分類タスクを分離する動的知覚器(Dyn-Perceiver)を提案する。
特徴ブランチは画像の特徴を抽出し、分類ブランチは分類タスクに割り当てられた遅延コードを処理する。
早期出口は分類枝に限られており、低レベルの特徴において線形分離性は不要である。
論文 参考訳(メタデータ) (2023-06-20T03:00:22Z) - Open-Vocabulary Semantic Segmentation with Decoupled One-Pass Network [26.97153244517095]
入力画像の視覚言語モデルに1つのパスしか必要としないネットワークを提案する。
本稿ではまず,事前学習した視覚エンコーダにおけるパッチ埋め込み間の有害な干渉を抑制するために,パッチ重大度と呼ばれる新しいネットワーク適応手法を提案する。
そこで我々は,ネットワークがより差別的な特徴に着目するよう促すために,分類アンカー学習を提案する。
論文 参考訳(メタデータ) (2023-04-03T17:59:21Z) - Exploring Discrete Diffusion Models for Image Captioning [104.69608826164216]
DDCapと呼ばれる拡散型キャプションモデルを提案する。
本稿では,ベストファースト推論,集中注意マスク,テキスト長予測,画像のないトレーニングなど,いくつかの重要な手法を提案する。
4Mビジョン言語による事前学習画像とベースサイズのモデルを用いて,COCO上のCIDErスコア125.1に達する。
論文 参考訳(メタデータ) (2022-11-21T18:12:53Z) - Progressive Tree-Structured Prototype Network for End-to-End Image
Captioning [74.8547752611337]
本稿では,新しいプログレッシブツリー構造型プロトタイプネットワーク(PTSN)を提案する。
PTSNは、階層的テキスト意味論をモデル化することによって、適切な意味論で予測語の範囲を狭める最初の試みである。
提案手法は,144.2%(シングルモデル),146.5%(4モデルのアンサンブル),141.4%(c5),143.9%(c40)のCIDErを公式オンラインテストサーバ上でスコアする。
論文 参考訳(メタデータ) (2022-11-17T11:04:00Z) - ExpansionNet: exploring the sequence length bottleneck in the
Transformer for Image Captioning [0.0]
本稿では,入力シーケンスを動的あるいは静的に,異なるシーケンス長を持つ新しいメソッドに変換する拡張メカニズム'を提案する。
このような手法を利用して,MS-COCO 2014データセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-07-07T14:37:02Z) - End-to-End Supermask Pruning: Learning to Prune Image Captioning Models [17.00974730372399]
80%から95%のスパースネットワークが、その密度の高いネットワークにマッチするか、より優れているかを示す。
Up-Down と Object Relation Transformer のコードと事前訓練されたモデルは、MS-COCO データセット上で CIDEr スコア >120 を達成することができる。
論文 参考訳(メタデータ) (2021-10-07T09:34:00Z) - BiO-Net: Learning Recurrent Bi-directional Connections for
Encoder-Decoder Architecture [82.64881585566825]
本稿では,新たな双方向O字型ネットワーク(BiO-Net)を提案する。
提案手法は,バニラU-Netおよび他の最先端手法よりも優れる。
論文 参考訳(メタデータ) (2020-07-01T05:07:49Z) - ResNeSt: Split-Attention Networks [86.25490825631763]
このアーキテクチャは、異なるネットワークブランチにチャンネルワイズを応用し、機能間相互作用のキャプチャと多様な表現の学習の成功を活用する。
我々のモデルはResNeStと呼ばれ、画像分類の精度と遅延トレードオフにおいてEfficientNetより優れています。
論文 参考訳(メタデータ) (2020-04-19T20:40:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。