論文の概要: Exploiting Multiple Sequence Lengths in Fast End to End Training for
Image Captioning
- arxiv url: http://arxiv.org/abs/2208.06551v4
- Date: Fri, 19 Jan 2024 02:42:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 19:54:27.626193
- Title: Exploiting Multiple Sequence Lengths in Fast End to End Training for
Image Captioning
- Title(参考訳): 画像キャプションのための高速終端訓練における複数シーケンス長の爆発
- Authors: Jia Cheng Hu, Roberto Cavicchioli, Alessandro Capotondi
- Abstract要約: 本稿では,シーケンス内の要素数に制約されない入力を処理する拡張機構を提案する。
そうすることで、従来の注意に基づくアプローチと比較して、モデルはより効果的に学習できる。
- 参考スコア(独自算出の注目度): 52.25026952905702
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce a method called the Expansion mechanism that processes the input
unconstrained by the number of elements in the sequence. By doing so, the model
can learn more effectively compared to traditional attention-based approaches.
To support this claim, we design a novel architecture ExpansionNet v2 that
achieved strong results on the MS COCO 2014 Image Captioning challenge and the
State of the Art in its respective category, with a score of 143.7 CIDErD in
the offline test split, 140.8 CIDErD in the online evaluation server and 72.9
AllCIDEr on the nocaps validation set. Additionally, we introduce an End to End
training algorithm up to 2.8 times faster than established alternatives. Source
code available at: https://github.com/jchenghu/ExpansionNet_v2
- Abstract(参考訳): 本稿では,シーケンス内の要素数に制約されない入力を処理する拡張機構という手法を提案する。
そうすることで、従来の注意に基づくアプローチと比較して、モデルはより効果的に学習できる。
この主張を支持するため、我々は、MS COCO 2014 Image Captioning Challenge と State of the Art のそれぞれのカテゴリで、オフラインテストスプリットで143.7 CIDErD 、オンライン評価サーバで140.8 CIDErD 、ノキャップ検証セットで72.9 AllCIDEr という、優れた結果を得た新しいアーキテクチャ ExpansionNet v2 を設計した。
さらに,既存のアルゴリズムよりも最大2.8倍高速なEnd to Endトレーニングアルゴリズムを導入する。
ソースコード: https://github.com/jchenghu/expansionnet_v2
関連論文リスト
- Linear Alignment of Vision-language Models for Image Captioning [9.746397419479447]
本稿では,CLIPのイメージとテキストの埋め込みを線形にマッピングする,より効率的なトレーニングプロトコルを提案する。
これにより、勾配計算の必要性を回避し、ReCapと呼ばれる軽量キャプション方式が実現される。
ReCap on MS-COCO, Flickr30k, VizWiz, MSRVTT。
論文 参考訳(メタデータ) (2023-07-10T17:59:21Z) - Dynamic Perceiver for Efficient Visual Recognition [87.08210214417309]
特徴抽出手順と早期分類タスクを分離する動的知覚器(Dyn-Perceiver)を提案する。
特徴ブランチは画像の特徴を抽出し、分類ブランチは分類タスクに割り当てられた遅延コードを処理する。
早期出口は分類枝に限られており、低レベルの特徴において線形分離性は不要である。
論文 参考訳(メタデータ) (2023-06-20T03:00:22Z) - Open-Vocabulary Semantic Segmentation with Decoupled One-Pass Network [26.97153244517095]
入力画像の視覚言語モデルに1つのパスしか必要としないネットワークを提案する。
本稿ではまず,事前学習した視覚エンコーダにおけるパッチ埋め込み間の有害な干渉を抑制するために,パッチ重大度と呼ばれる新しいネットワーク適応手法を提案する。
そこで我々は,ネットワークがより差別的な特徴に着目するよう促すために,分類アンカー学習を提案する。
論文 参考訳(メタデータ) (2023-04-03T17:59:21Z) - Exploring Discrete Diffusion Models for Image Captioning [104.69608826164216]
DDCapと呼ばれる拡散型キャプションモデルを提案する。
本稿では,ベストファースト推論,集中注意マスク,テキスト長予測,画像のないトレーニングなど,いくつかの重要な手法を提案する。
4Mビジョン言語による事前学習画像とベースサイズのモデルを用いて,COCO上のCIDErスコア125.1に達する。
論文 参考訳(メタデータ) (2022-11-21T18:12:53Z) - Progressive Tree-Structured Prototype Network for End-to-End Image
Captioning [74.8547752611337]
本稿では,新しいプログレッシブツリー構造型プロトタイプネットワーク(PTSN)を提案する。
PTSNは、階層的テキスト意味論をモデル化することによって、適切な意味論で予測語の範囲を狭める最初の試みである。
提案手法は,144.2%(シングルモデル),146.5%(4モデルのアンサンブル),141.4%(c5),143.9%(c40)のCIDErを公式オンラインテストサーバ上でスコアする。
論文 参考訳(メタデータ) (2022-11-17T11:04:00Z) - ExpansionNet: exploring the sequence length bottleneck in the
Transformer for Image Captioning [0.0]
本稿では,入力シーケンスを動的あるいは静的に,異なるシーケンス長を持つ新しいメソッドに変換する拡張メカニズム'を提案する。
このような手法を利用して,MS-COCO 2014データセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-07-07T14:37:02Z) - End-to-End Supermask Pruning: Learning to Prune Image Captioning Models [17.00974730372399]
80%から95%のスパースネットワークが、その密度の高いネットワークにマッチするか、より優れているかを示す。
Up-Down と Object Relation Transformer のコードと事前訓練されたモデルは、MS-COCO データセット上で CIDEr スコア >120 を達成することができる。
論文 参考訳(メタデータ) (2021-10-07T09:34:00Z) - BiO-Net: Learning Recurrent Bi-directional Connections for
Encoder-Decoder Architecture [82.64881585566825]
本稿では,新たな双方向O字型ネットワーク(BiO-Net)を提案する。
提案手法は,バニラU-Netおよび他の最先端手法よりも優れる。
論文 参考訳(メタデータ) (2020-07-01T05:07:49Z) - ResNeSt: Split-Attention Networks [86.25490825631763]
このアーキテクチャは、異なるネットワークブランチにチャンネルワイズを応用し、機能間相互作用のキャプチャと多様な表現の学習の成功を活用する。
我々のモデルはResNeStと呼ばれ、画像分類の精度と遅延トレードオフにおいてEfficientNetより優れています。
論文 参考訳(メタデータ) (2020-04-19T20:40:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。