論文の概要: Bounding and Filling: A Fast and Flexible Framework for Image Captioning
- arxiv url: http://arxiv.org/abs/2310.09876v1
- Date: Sun, 15 Oct 2023 16:17:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 17:27:36.040556
- Title: Bounding and Filling: A Fast and Flexible Framework for Image Captioning
- Title(参考訳): バウンディングとフィリング: 画像キャプションのための高速で柔軟なフレームワーク
- Authors: Zheng Ma, Changxin Wang, Bo Huang, Zixuan Zhu and Jianbing Zhang
- Abstract要約: 本稿では,BoFiCapと呼ばれる高速かつ柔軟な画像キャプションフレームワークについて,バウンディングとフィリング技術を用いて紹介する。
非自己回帰的な方法での我々のフレームワークは、タスク固有のメトリクスCIDErの最先端を実現すると同時に、9.22倍の高速化を実現している。
- 参考スコア(独自算出の注目度): 5.810020749348207
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most image captioning models following an autoregressive manner suffer from
significant inference latency. Several models adopted a non-autoregressive
manner to speed up the process. However, the vanilla non-autoregressive manner
results in subpar performance, since it generates all words simultaneously,
which fails to capture the relationships between words in a description. The
semi-autoregressive manner employs a partially parallel method to preserve
performance, but it sacrifices inference speed. In this paper, we introduce a
fast and flexible framework for image captioning called BoFiCap based on
bounding and filling techniques. The BoFiCap model leverages the inherent
characteristics of image captioning tasks to pre-define bounding boxes for
image regions and their relationships. Subsequently, the BoFiCap model fills
corresponding words in each box using two-generation manners. Leveraging the
box hints, our filling process allows each word to better perceive other words.
Additionally, our model offers flexible image description generation: 1) by
employing different generation manners based on speed or performance
requirements, 2) producing varied sentences based on user-specified boxes.
Experimental evaluations on the MS-COCO benchmark dataset demonstrate that our
framework in a non-autoregressive manner achieves the state-of-the-art on
task-specific metric CIDEr (125.6) while speeding up 9.22x than the baseline
model with an autoregressive manner; in a semi-autoregressive manner, our
method reaches 128.4 on CIDEr while a 3.69x speedup. Our code and data is
available at https://github.com/ChangxinWang/BoFiCap.
- Abstract(参考訳): 自己回帰的手法に従う画像キャプションモデルの多くは、かなりの推論遅延を伴っている。
いくつかのモデルはプロセスのスピードアップのために非自己回帰方式を採用した。
しかしながら、バニラ非自己回帰的手法は、すべての単語を同時に生成するので、記述中の単語間の関係をキャプチャできないため、サブパーパフォーマンスをもたらす。
半自己回帰法は性能を維持するために部分的に平行な手法を用いるが、推論速度を犠牲にする。
本稿では,BoFiCapと呼ばれる高速かつ柔軟な画像キャプションフレームワークを提案する。
BoFiCapモデルは、画像キャプションタスクの固有の特性を利用して、画像領域とその関連性のための境界ボックスを事前に定義する。
その後、BoFiCapモデルは、2世代方式で各ボックスの対応する単語を埋める。
ボックスヒントを活用することで、各単語が他の単語をよりよく認識できるようになります。
さらに、このモデルは柔軟な画像記述生成を提供する。
1) 速度又は性能要求に基づいて異なる世代方式を採用する。
2)ユーザが指定したボックスに基づいて様々な文を生成する。
ms-cocoベンチマークデータセットにおける実験的評価は、非自己回帰的な方法でのフレームワークがタスク固有のメトリックcider (125.6) の最先端を達成し、自己回帰的な方法でベースラインモデルよりも9.22倍高速であることを示している。
私たちのコードとデータはhttps://github.com/ChangxinWang/BoFiCapで公開されています。
関連論文リスト
- Emage: Non-Autoregressive Text-to-Image Generation [63.347052548210236]
非自己回帰的テキスト画像モデルは、効率的に数百の画像トークンを並列に生成する。
346Mパラメータのモデルでは、256$times$256の画像を1つのV100 GPU上で約1秒生成する。
論文 参考訳(メタデータ) (2023-12-22T10:01:54Z) - Exploring Discrete Diffusion Models for Image Captioning [104.69608826164216]
DDCapと呼ばれる拡散型キャプションモデルを提案する。
本稿では,ベストファースト推論,集中注意マスク,テキスト長予測,画像のないトレーニングなど,いくつかの重要な手法を提案する。
4Mビジョン言語による事前学習画像とベースサイズのモデルを用いて,COCO上のCIDErスコア125.1に達する。
論文 参考訳(メタデータ) (2022-11-21T18:12:53Z) - Zero-Shot Video Captioning with Evolving Pseudo-Tokens [79.16706829968673]
本稿では,GPT-2言語モデルとCLIP画像テキストマッチングモデルという,凍結した2つのネットワークを利用するゼロショットビデオキャプション手法を提案する。
マッチングスコアは、ビデオフレームのサブセットに高い平均マッチングスコアを持つ文を生成するために、言語モデルを決定するために使用される。
実験の結果, 生成したキャプションはコヒーレントであり, 現実世界の知識を広範囲に表すことができた。
論文 参考訳(メタデータ) (2022-07-22T14:19:31Z) - Semi-Autoregressive Image Captioning [153.9658053662605]
画像キャプションに対する現在の最先端のアプローチは、通常自己回帰的手法を採用する。
連続的反復改善による非自己回帰画像キャプションは、かなりの加速を伴う自己回帰画像キャプションに匹敵する性能が得られる。
本稿では,性能と速度のトレードオフを改善するために,SAIC(Semi-Autoregressive Image Captioning)と呼ばれる新しい2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-11T15:11:54Z) - Semi-Autoregressive Transformer for Image Captioning [17.533503295862808]
画像キャプションのための半自己回帰モデル(SATIC)を提案する。
グローバルに自己回帰特性を保持するが、局所的に並列に単語を生成する。
MSCOCO画像キャプションベンチマークの実験では、SATICは鐘や笛なしでより良いトレードオフを達成できることが示された。
論文 参考訳(メタデータ) (2021-06-17T12:36:33Z) - Fast Sequence Generation with Multi-Agent Reinforcement Learning [40.75211414663022]
機械翻訳では、すべての単語を並列に生成することで推論時間を高速化するノンオートレグレッシブデコードが提案されている。
我々は,非自己回帰的シーケンス生成(NAG)のための新しい訓練パラダイムを用いた簡易かつ効率的なモデルを提案する。
MSCOCOイメージキャプションベンチマークでは、NAG法は最先端のオートレグレッシブモデルに匹敵するパフォーマンスを実現し、13.9倍のデコード高速化を実現します。
論文 参考訳(メタデータ) (2021-01-24T12:16:45Z) - Length-Controllable Image Captioning [67.2079793803317]
簡単な長さレベルの埋め込みを用いて,その能力を実現することを提案する。
自己回帰的な性質のため、既存のモデルの計算複雑性は、生成されたキャプションの長さが大きくなるにつれて線形的に増加する。
さらに,非自己回帰的画像キャプション手法を考案し,キャプションを時間的無関係な複雑さで生成する。
論文 参考訳(メタデータ) (2020-07-19T03:40:51Z) - Non-Autoregressive Image Captioning with Counterfactuals-Critical
Multi-Agent Learning [46.060954649681385]
新たな訓練パラダイムを持つ非自己回帰的画像キャプションモデル: 対実的クリティカルなマルチエージェント学習(CMAL)を提案する。
我々のNAICモデルは、最先端の自己回帰モデルに匹敵する性能を達成し、13.9倍のデコードスピードアップを実現している。
論文 参考訳(メタデータ) (2020-05-10T15:09:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。