Fugu-MT 論文翻訳(概要): ExpansionNet v2: Block Static Expansion in fast end to end training for Image Captioning

論文の概要: ExpansionNet v2: Block Static Expansion in fast end to end training for Image Captioning

arxiv url: http://arxiv.org/abs/2208.06551v1
Date: Sat, 13 Aug 2022 02:50:35 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-16 13:47:14.829340
Title: ExpansionNet v2: Block Static Expansion in fast end to end training for Image Captioning
Title（参考訳）: ExpansionNet v2: Image Captioningのための高速エンドツーエンドトレーニングにおけるブロック静的拡張
Authors: Jia Cheng Hu, Roberto Cavicchioli, Alessandro Capotondi
Abstract要約: 深層学習手法における入力長における性能ボトルネックの可能性を探る。本稿では,不均一で大容量なシーケンスの集合上に入力を分散処理するBlock Static Expansionを提案する。我々は,画像キャプションにおける最近の作業の標準的なアプローチに比べて,有効であるだけでなく,6倍高速であるように設計されたExpansionNet v2という新しいモデルを紹介した。
参考スコア（独自算出の注目度）: 69.3939291118954
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Expansion methods explore the possibility of performance bottlenecks in the input length in Deep Learning methods. In this work, we introduce the Block Static Expansion which distributes and processes the input over a heterogeneous and arbitrarily big collection of sequences characterized by a different length compared to the input one. From this method we introduce a new model called ExpansionNet v2, which is trained using our new training strategy, designed to be not only effective but also 6 times faster compared to the standard approach of recent works in Image Captioning. Our new model achieves the state of art performance over the MS-COCO 2014 captioning challenge with a score of 143.7 CIDEr-D in the offline test split, 140.8 CIDEr-D in the online evaluation server and 72.9 All-CIDEr on the nocaps validation set. Source code available at: https://github.com/jchenghu/ExpansionNet_v2
Abstract（参考訳）: 深層学習手法における入力長における性能ボトルネックの可能性を探る。本研究では,入力と異なる長さで特徴付けられる不均一かつ任意に大きな列の集合に対して,入力を分散処理するブロック静的展開を導入する。そこで本研究では, 画像キャプションにおける従来の手法に比べて, 有効性だけでなく, 6倍の高速化が期待できる拡張ネットv2モデルを提案する。オンライン評価サーバでは140.8 CIDEr-D,nocaps Validationセットでは72.9 All-CIDEr,オフラインテストスプリットでは143.7 CIDEr-D,nocaps Validationセットでは72.9 All-CIDErである。ソースコード: https://github.com/jchenghu/expansionnet_v2

関連論文リスト

Linear Alignment of Vision-language Models for Image Captioning [9.746397419479447]
本稿では,CLIPのイメージとテキストの埋め込みを線形にマッピングする,より効率的なトレーニングプロトコルを提案する。これにより、勾配計算の必要性を回避し、ReCapと呼ばれる軽量キャプション方式が実現される。 ReCap on MS-COCO, Flickr30k, VizWiz, MSRVTT。
論文参考訳（メタデータ） (2023-07-10T17:59:21Z)
Dynamic Perceiver for Efficient Visual Recognition [87.08210214417309]
特徴抽出手順と早期分類タスクを分離する動的知覚器(Dyn-Perceiver)を提案する。特徴ブランチは画像の特徴を抽出し、分類ブランチは分類タスクに割り当てられた遅延コードを処理する。早期出口は分類枝に限られており、低レベルの特徴において線形分離性は不要である。
論文参考訳（メタデータ） (2023-06-20T03:00:22Z)
Open-Vocabulary Semantic Segmentation with Decoupled One-Pass Network [26.97153244517095]
入力画像の視覚言語モデルに1つのパスしか必要としないネットワークを提案する。本稿ではまず,事前学習した視覚エンコーダにおけるパッチ埋め込み間の有害な干渉を抑制するために,パッチ重大度と呼ばれる新しいネットワーク適応手法を提案する。そこで我々は,ネットワークがより差別的な特徴に着目するよう促すために,分類アンカー学習を提案する。
論文参考訳（メタデータ） (2023-04-03T17:59:21Z)
Exploring Discrete Diffusion Models for Image Captioning [104.69608826164216]
DDCapと呼ばれる拡散型キャプションモデルを提案する。本稿では,ベストファースト推論,集中注意マスク,テキスト長予測,画像のないトレーニングなど,いくつかの重要な手法を提案する。 4Mビジョン言語による事前学習画像とベースサイズのモデルを用いて,COCO上のCIDErスコア125.1に達する。
論文参考訳（メタデータ） (2022-11-21T18:12:53Z)
Progressive Tree-Structured Prototype Network for End-to-End Image Captioning [74.8547752611337]
本稿では,新しいプログレッシブツリー構造型プロトタイプネットワーク(PTSN)を提案する。 PTSNは、階層的テキスト意味論をモデル化することによって、適切な意味論で予測語の範囲を狭める最初の試みである。提案手法は,144.2%(シングルモデル),146.5%(4モデルのアンサンブル),141.4%(c5),143.9%(c40)のCIDErを公式オンラインテストサーバ上でスコアする。
論文参考訳（メタデータ） (2022-11-17T11:04:00Z)
ExpansionNet: exploring the sequence length bottleneck in the Transformer for Image Captioning [0.0]
本稿では,入力シーケンスを動的あるいは静的に,異なるシーケンス長を持つ新しいメソッドに変換する拡張メカニズム'を提案する。このような手法を利用して,MS-COCO 2014データセット上での競合性能を実現する。
論文参考訳（メタデータ） (2022-07-07T14:37:02Z)
End-to-End Supermask Pruning: Learning to Prune Image Captioning Models [17.00974730372399]
80%から95%のスパースネットワークが、その密度の高いネットワークにマッチするか、より優れているかを示す。 Up-Down と Object Relation Transformer のコードと事前訓練されたモデルは、MS-COCO データセット上で CIDEr スコア >120 を達成することができる。
論文参考訳（メタデータ） (2021-10-07T09:34:00Z)
BiO-Net: Learning Recurrent Bi-directional Connections for Encoder-Decoder Architecture [82.64881585566825]
本稿では,新たな双方向O字型ネットワーク(BiO-Net)を提案する。提案手法は,バニラU-Netおよび他の最先端手法よりも優れる。
論文参考訳（メタデータ） (2020-07-01T05:07:49Z)
ResNeSt: Split-Attention Networks [86.25490825631763]
このアーキテクチャは、異なるネットワークブランチにチャンネルワイズを応用し、機能間相互作用のキャプチャと多様な表現の学習の成功を活用する。我々のモデルはResNeStと呼ばれ、画像分類の精度と遅延トレードオフにおいてEfficientNetより優れています。
論文参考訳（メタデータ） (2020-04-19T20:40:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。