論文の概要: Compact Bidirectional Transformer for Image Captioning
- arxiv url: http://arxiv.org/abs/2201.01984v1
- Date: Thu, 6 Jan 2022 09:23:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-07 14:08:50.867735
- Title: Compact Bidirectional Transformer for Image Captioning
- Title(参考訳): 画像キャプション用小型双方向トランス
- Authors: Yuanen Zhou, Zhenzhen Hu, Daqing Liu, Huixia Ben, Meng Wang
- Abstract要約: 画像キャプションのためのコンパクトな双方向トランスフォーマーモデルを導入し、双方向コンテキストを暗黙的かつ明示的に活用する。
我々は、MSCOCOベンチマークに関する広範囲なアブレーション研究を行い、コンパクトアーキテクチャが、暗黙的に双方向コンテキストを活用するための正規化として機能することを発見した。
我々は、非視覚言語事前学習モデルと比較して、最先端の新たな結果を得る。
- 参考スコア(独自算出の注目度): 15.773455578749118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most current image captioning models typically generate captions from left to
right. This unidirectional property makes them can only leverage past context
but not future context. Though recent refinement-based models can exploit both
past and future context by generating a new caption in the second stage based
on pre-retrieved or pre-generated captions in the first stage, the decoder of
these models generally consists of two networks~(i.e. a retriever or captioner
in the first stage and a refiner in the second stage), which can only be
executed sequentially. In this paper, we introduce a Compact Bidirectional
Transformer model for image captioning that can leverage bidirectional context
implicitly and explicitly while the decoder can be executed parallelly.
Specifically, it is implemented by tightly coupling left-to-right(L2R) and
right-to-left(R2L) flows into a single compact model~(i.e. implicitly) and
optionally allowing interaction of the two flows(i.e. explicitly), while the
final caption is chosen from either L2R or R2L flow in a sentence-level
ensemble manner. We conduct extensive ablation studies on the MSCOCO benchmark
and find that the compact architecture, which serves as a regularization for
implicitly exploiting bidirectional context, and the sentence-level ensemble
play more important roles than the explicit interaction mechanism. By combining
with word-level ensemble seamlessly, the effect of the sentence-level ensemble
is further enlarged. We further extend the conventional one-flow self-critical
training to the two-flows version under this architecture and achieve new
state-of-the-art results in comparison with non-vision-language-pretraining
models. Source code is available at
{\color{magenta}\url{https://github.com/YuanEZhou/CBTrans}}.
- Abstract(参考訳): 現在の画像キャプションモデルのほとんどは、通常左から右にキャプションを生成する。
この一方向プロパティは、過去のコンテキストのみを活用できるが、将来のコンテキストは利用できない。
最近のリファインメントベースのモデルは、第1段階で検索済みまたは生成されたキャプションに基づいて第2段階で新しいキャプションを生成することで、過去と将来の両方のコンテキストを利用することができるが、これらのモデルのデコーダは一般に2つのネットワーク(すなわち、第1段のレトリバーまたはキャプターと第2段のリファインダー)から成り、順次しか実行できない。
本稿では,デコーダを並列に実行しながら,暗黙的かつ明示的に双方向コンテキストを活用可能な画像キャプション用コンパクト双方向トランスフォーマモデルを提案する。
具体的には、左から右へ(L2R)と右から左へ(R2L)の流れを単一のコンパクトモデル~(つまり暗黙的に)に密結合し、2つの流れの相互作用(すなわち明示的に)を任意に許容し、最後のキャプションは文レベルのアンサンブル方法でL2RまたはR2Lフローから選択される。
我々は、MSCOCOベンチマークに関する広範囲なアブレーション研究を行い、双方向コンテキストを暗黙的に活用するための正規化として機能するコンパクトアーキテクチャが、明示的な相互作用メカニズムよりも重要な役割を果たすことを発見した。
単語レベルのアンサンブルをシームレスに組み合わせることで、文レベルのアンサンブルの効果をさらに拡大する。
このアーキテクチャの下では,従来の1フロー自己批判訓練を2フロー型に拡張し,非視覚言語予備学習モデルと比較し,新たな最先端結果を得る。
ソースコードは {\color{magenta}\url{https://github.com/YuanEZhou/CBTrans}}で入手できる。
関連論文リスト
- Unifying Two-Stream Encoders with Transformers for Cross-Modal Retrieval [68.61855682218298]
クロスモーダル検索法では、画像とテキストの異なるアーキテクチャを持つ2ストリームエンコーダを用いる。
視覚タスクにおけるトランスフォーマーの最近の進歩に触発されて,トランスフォーマーとエンコーダアーキテクチャを両モードで統一することを提案する。
我々は、画像変換器、テキスト変換器、階層アライメントモジュールからなる2ストリーム変換器(textbfHierarchical Alignment Transformers, HAT)を純粋にベースとしたクロスモーダル検索フレームワークを設計する。
論文 参考訳(メタデータ) (2023-08-08T15:43:59Z) - Semantic-Conditional Diffusion Networks for Image Captioning [116.86677915812508]
画像キャプションに適した拡散モデルに基づく新しいパラダイム,すなわちセマンティック・コンディション・ディフュージョン・ネットワーク(SCD-Net)を提案する。
SCD-Netでは、複数の拡散変換器構造を積み重ねて、より優れた視覚言語アライメントと言語的コヒーレンスで出力文を徐々に強化する。
COCOデータセットの実験は、困難な画像キャプションタスクにおいて拡散モデルを使用することの有望な可能性を示している。
論文 参考訳(メタデータ) (2022-12-06T16:08:16Z) - Paraphrasing Is All You Need for Novel Object Captioning [126.66301869607656]
新たな物体キャプション (NOC) は, 訓練中に真実のキャプションを観察することなく, 対象を含む画像を記述することを目的としている。
本稿では,NOC の2段階学習フレームワークである Paraphrasing-to-Captioning (P2C) について述べる。
論文 参考訳(メタデータ) (2022-09-25T22:56:04Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - ReSTR: Convolution-free Referring Image Segmentation Using Transformers [80.9672131755143]
本稿では,ReSTRと呼ばれる変換器を用いた画像セグメンテーションのための最初の畳み込みフリーモデルを提案する。
変換器エンコーダを通じて両方のモダリティの特徴を抽出するため、ReSTRは各モダリティ内のエンティティ間の長距離依存関係をキャプチャすることができる。
また、ReSTRは自己アテンションエンコーダによって2つのモードの特徴を融合させ、融合過程における2つのモード間のフレキシブルで適応的な相互作用を可能にする。
論文 参考訳(メタデータ) (2022-03-31T02:55:39Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z) - L-Verse: Bidirectional Generation Between Image and Text [41.133824156046394]
L-Verseは、AugVAE(Feature-augmented Variational Autoencoder)とBiART(Bidirectional Auto-Regressive Transformer)で構成される新しいアーキテクチャである。
AugVAEは、ImageNet1Kバリデーションセットにおける最先端の再構築性能と、野生の未確認画像に対するロバスト性を示している。
L-Verseは、微調整や余分なオブジェクト検出フレームワークを使わずに、画像からテキスト、テキストから画像を生成するタスクに直接使用することができる。
論文 参考訳(メタデータ) (2021-11-22T11:48:26Z) - ReFormer: The Relational Transformer for Image Captioning [12.184772369145014]
画像キャプションは、シーングラフを使用して画像内のオブジェクトの関係を表現することにより、より良いパフォーマンスを実現することができる。
本稿では,関係情報を埋め込んだ特徴を生成する新しいアーキテクチャReFormerを提案する。
本モデルは画像キャプションとシーングラフ生成における最先端手法を著しく上回る。
論文 参考訳(メタデータ) (2021-07-29T17:03:36Z) - Text to Image Generation with Semantic-Spatial Aware GAN [41.73685713621705]
テキストから画像生成(T2I)モデルは、テキスト記述と意味的に一致するフォトリアリズム画像を生成することを目的としている。
本稿では,テキストエンコーダがより良いテキスト情報を活用できるように,エンドツーエンドで訓練された新しいフレームワークSemantic-Spatial Aware GANを提案する。
論文 参考訳(メタデータ) (2021-04-01T15:48:01Z) - SemVLP: Vision-Language Pre-training by Aligning Semantics at Multiple
Levels [35.57369098866317]
大規模画像テキストペアによる視覚言語事前学習では,クロスモーダル表現の学習が急速に進展している。
画像とテキストの表現の低レベルと高レベルのセマンティクスを協調的に調整する新しい事前学習手法を提案する。
論文 参考訳(メタデータ) (2021-03-14T02:39:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。