論文の概要: Image Captioning via Compact Bidirectional Architecture
- arxiv url: http://arxiv.org/abs/2201.01984v2
- Date: Tue, 29 Jul 2025 10:32:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:54.767945
- Title: Image Captioning via Compact Bidirectional Architecture
- Title(参考訳): コンパクト双方向アーキテクチャによる画像キャプション
- Authors: Zijie Song, Yuanen Zhou, Zhenzhen Hu, Daqing Liu, Huixia Ben, Richang Hong, Meng Wang,
- Abstract要約: 画像キャプションのためのコンパクト双方向トランスモデルを提案する。
双方向のコンテキストを暗黙的に、明示的に利用でき、デコーダは並列に実行できる。
我々は、MSCOCOベンチマークの広範囲にわたるアブレーション研究を行い、コンパクトな双方向アーキテクチャと文レベルのアンサンブルが明示的な相互作用メカニズムよりも重要な役割を果たすことを発見した。
- 参考スコア(独自算出の注目度): 38.485010234867204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most current image captioning models typically generate captions from left-to-right. This unidirectional property makes them can only leverage past context but not future context. Though refinement-based models can exploit both past and future context by generating a new caption in the second stage based on pre-retrieved or pre-generated captions in the first stage, the decoder of these models generally consists of two networks~(i.e. a retriever or captioner in the first stage and a captioner in the second stage), which can only be executed sequentially. In this paper, we introduce a Compact Bidirectional Transformer model for image captioning that can leverage bidirectional context implicitly and explicitly while the decoder can be executed parallelly. Specifically, it is implemented by tightly coupling left-to-right(L2R) and right-to-left(R2L) flows into a single compact model to serve as a regularization for implicitly exploiting bidirectional context and optionally allowing explicit interaction of the bidirectional flows, while the final caption is chosen from either L2R or R2L flow in a sentence-level ensemble manner. We conduct extensive ablation studies on MSCOCO benchmark and find that the compact bidirectional architecture and the sentence-level ensemble play more important roles than the explicit interaction mechanism. By combining with word-level ensemble seamlessly, the effect of sentence-level ensemble is further enlarged. We further extend the conventional one-flow self-critical training to the two-flows version under this architecture and achieve new state-of-the-art results in comparison with non-vision-language-pretraining models. Finally, we verify the generality of this compact bidirectional architecture by extending it to LSTM backbone. Source code is available at https://github.com/YuanEZhou/cbtic.
- Abstract(参考訳): 現在の画像キャプションモデルは、通常左から右へキャプションを生成する。
この一方向プロパティは、過去のコンテキストのみを活用できるが、将来のコンテキストは利用できない。
改良ベースのモデルは、第1段階での検索済みまたは前生成されたキャプションに基づいて第2段階で新しいキャプションを生成することによって、過去と将来の両方のコンテキストを利用することができるが、これらのモデルのデコーダは一般に2つのネットワーク(すなわち、第1段のレトリバーまたはキャプタと第2段のキャプタ)で構成され、順次しか実行できない。
本稿では,デコーダを並列に実行しながら,暗黙的かつ明示的に双方向コンテキストを活用可能な画像キャプション用コンパクト双方向トランスフォーマモデルを提案する。
具体的には、左から右へ(L2R)と右から左へ(R2L)の流れを1つのコンパクトモデルに密結合して実装し、双方向コンテキストを暗黙的に活用し、任意の双方向フローの明示的な相互作用を可能にする正規化として機能し、最終キャプションは文レベルのアンサンブル方法でL2RまたはR2Lフローから選択される。
我々は、MSCOCOベンチマークの広範囲にわたるアブレーション研究を行い、コンパクトな双方向アーキテクチャと文レベルのアンサンブルが明示的な相互作用メカニズムよりも重要な役割を果たすことを発見した。
単語レベルのアンサンブルをシームレスに組み合わせることで、文レベルのアンサンブルの効果をさらに拡大する。
従来の1フロー自己クリティカルトレーニングを,このアーキテクチャの下での2フローバージョンに拡張し,非視覚言語事前学習モデルと比較して,新たな最先端結果を実現する。
最後に、LSTMバックボーンに拡張することで、このコンパクトな双方向アーキテクチャの汎用性を検証する。
ソースコードはhttps://github.com/YuanEZhou/cbtic.comで入手できる。
関連論文リスト
- Unifying Two-Stream Encoders with Transformers for Cross-Modal Retrieval [68.61855682218298]
クロスモーダル検索法では、画像とテキストの異なるアーキテクチャを持つ2ストリームエンコーダを用いる。
視覚タスクにおけるトランスフォーマーの最近の進歩に触発されて,トランスフォーマーとエンコーダアーキテクチャを両モードで統一することを提案する。
我々は、画像変換器、テキスト変換器、階層アライメントモジュールからなる2ストリーム変換器(textbfHierarchical Alignment Transformers, HAT)を純粋にベースとしたクロスモーダル検索フレームワークを設計する。
論文 参考訳(メタデータ) (2023-08-08T15:43:59Z) - Semantic-Conditional Diffusion Networks for Image Captioning [116.86677915812508]
画像キャプションに適した拡散モデルに基づく新しいパラダイム,すなわちセマンティック・コンディション・ディフュージョン・ネットワーク(SCD-Net)を提案する。
SCD-Netでは、複数の拡散変換器構造を積み重ねて、より優れた視覚言語アライメントと言語的コヒーレンスで出力文を徐々に強化する。
COCOデータセットの実験は、困難な画像キャプションタスクにおいて拡散モデルを使用することの有望な可能性を示している。
論文 参考訳(メタデータ) (2022-12-06T16:08:16Z) - Paraphrasing Is All You Need for Novel Object Captioning [126.66301869607656]
新たな物体キャプション (NOC) は, 訓練中に真実のキャプションを観察することなく, 対象を含む画像を記述することを目的としている。
本稿では,NOC の2段階学習フレームワークである Paraphrasing-to-Captioning (P2C) について述べる。
論文 参考訳(メタデータ) (2022-09-25T22:56:04Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - ReSTR: Convolution-free Referring Image Segmentation Using Transformers [80.9672131755143]
本稿では,ReSTRと呼ばれる変換器を用いた画像セグメンテーションのための最初の畳み込みフリーモデルを提案する。
変換器エンコーダを通じて両方のモダリティの特徴を抽出するため、ReSTRは各モダリティ内のエンティティ間の長距離依存関係をキャプチャすることができる。
また、ReSTRは自己アテンションエンコーダによって2つのモードの特徴を融合させ、融合過程における2つのモード間のフレキシブルで適応的な相互作用を可能にする。
論文 参考訳(メタデータ) (2022-03-31T02:55:39Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z) - L-Verse: Bidirectional Generation Between Image and Text [41.133824156046394]
L-Verseは、AugVAE(Feature-augmented Variational Autoencoder)とBiART(Bidirectional Auto-Regressive Transformer)で構成される新しいアーキテクチャである。
AugVAEは、ImageNet1Kバリデーションセットにおける最先端の再構築性能と、野生の未確認画像に対するロバスト性を示している。
L-Verseは、微調整や余分なオブジェクト検出フレームワークを使わずに、画像からテキスト、テキストから画像を生成するタスクに直接使用することができる。
論文 参考訳(メタデータ) (2021-11-22T11:48:26Z) - ReFormer: The Relational Transformer for Image Captioning [12.184772369145014]
画像キャプションは、シーングラフを使用して画像内のオブジェクトの関係を表現することにより、より良いパフォーマンスを実現することができる。
本稿では,関係情報を埋め込んだ特徴を生成する新しいアーキテクチャReFormerを提案する。
本モデルは画像キャプションとシーングラフ生成における最先端手法を著しく上回る。
論文 参考訳(メタデータ) (2021-07-29T17:03:36Z) - Text to Image Generation with Semantic-Spatial Aware GAN [41.73685713621705]
テキストから画像生成(T2I)モデルは、テキスト記述と意味的に一致するフォトリアリズム画像を生成することを目的としている。
本稿では,テキストエンコーダがより良いテキスト情報を活用できるように,エンドツーエンドで訓練された新しいフレームワークSemantic-Spatial Aware GANを提案する。
論文 参考訳(メタデータ) (2021-04-01T15:48:01Z) - SemVLP: Vision-Language Pre-training by Aligning Semantics at Multiple
Levels [35.57369098866317]
大規模画像テキストペアによる視覚言語事前学習では,クロスモーダル表現の学習が急速に進展している。
画像とテキストの表現の低レベルと高レベルのセマンティクスを協調的に調整する新しい事前学習手法を提案する。
論文 参考訳(メタデータ) (2021-03-14T02:39:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。