論文の概要: Image Captioning through Image Transformer
- arxiv url: http://arxiv.org/abs/2004.14231v2
- Date: Fri, 2 Oct 2020 19:26:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 14:10:35.698744
- Title: Image Captioning through Image Transformer
- Title(参考訳): 画像変換器による画像キャプション
- Authors: Sen He, Wentong Liao, Hamed R. Tavakoli, Michael Yang, Bodo Rosenhahn,
Nicolas Pugeault
- Abstract要約: 変形符号化変換器と暗黙復号変換器からなるtextbftextitimage transformer を導入する。
本モデルでは,MSCOCOのオフラインおよびオンラインテストベンチマークにおいて,最新の性能を実現する。
- 参考スコア(独自算出の注目度): 29.91581534937757
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic captioning of images is a task that combines the challenges of
image analysis and text generation. One important aspect in captioning is the
notion of attention: How to decide what to describe and in which order.
Inspired by the successes in text analysis and translation, previous work have
proposed the \textit{transformer} architecture for image captioning. However,
the structure between the \textit{semantic units} in images (usually the
detected regions from object detection model) and sentences (each single word)
is different. Limited work has been done to adapt the transformer's internal
architecture to images. In this work, we introduce the \textbf{\textit{image
transformer}}, which consists of a modified encoding transformer and an
implicit decoding transformer, motivated by the relative spatial relationship
between image regions. Our design widen the original transformer layer's inner
architecture to adapt to the structure of images. With only regions feature as
inputs, our model achieves new state-of-the-art performance on both MSCOCO
offline and online testing benchmarks.
- Abstract(参考訳): 画像の自動キャプションは、画像解析とテキスト生成の課題を組み合わせたタスクである。
キャプションにおける重要な側面の1つは注意の概念であり、何を記述するか、どの順序で決めるかである。
テキスト分析と翻訳の成功に触発されて、画像キャプションのための \textit{transformer} アーキテクチャが提案されている。
しかし、画像中の \textit{semantic unit} の構造(通常、オブジェクト検出モデルから検出された領域)と文(各単語)は異なる。
トランスフォーマーの内部アーキテクチャをイメージに適用する作業は限られている。
本稿では,画像領域間の相対的空間的関係を動機とした符号化変換器と暗黙的復号変換器とを組み合わせた「textbf{\textit{image transformer}}」を紹介する。
我々の設計は、画像の構造に適応するために、オリジナルのトランスフォーマー層の内部構造を広げる。
リージョンのみを入力として,mscocoのオフラインおよびオンラインテストベンチマークにおいて,新たな最先端性能を実現する。
関連論文リスト
- Unifying Two-Stream Encoders with Transformers for Cross-Modal Retrieval [68.61855682218298]
クロスモーダル検索法では、画像とテキストの異なるアーキテクチャを持つ2ストリームエンコーダを用いる。
視覚タスクにおけるトランスフォーマーの最近の進歩に触発されて,トランスフォーマーとエンコーダアーキテクチャを両モードで統一することを提案する。
我々は、画像変換器、テキスト変換器、階層アライメントモジュールからなる2ストリーム変換器(textbfHierarchical Alignment Transformers, HAT)を純粋にベースとしたクロスモーダル検索フレームワークを設計する。
論文 参考訳(メタデータ) (2023-08-08T15:43:59Z) - Language Guided Local Infiltration for Interactive Image Retrieval [12.324893780690918]
Interactive Image Retrieval (IIR) は、一般的に参照画像と似ているが、要求されたテキスト修正の下で画像を取得することを目的としている。
テキスト情報を完全に活用し,画像特徴にテキスト特徴を浸透させる言語ガイド型局所浸透システム(LGLI)を提案する。
我々の手法は、最先端のIIR手法よりも優れています。
論文 参考訳(メタデータ) (2023-04-16T10:33:08Z) - Neighborhood Contrastive Transformer for Change Captioning [80.10836469177185]
本研究では,異なる環境下での様々な変化に対するモデルの知覚能力を向上させるために,近傍のコントラスト変換器を提案する。
提案手法は,変化シナリオの異なる3つの公開データセットに対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-06T14:39:54Z) - ManiTrans: Entity-Level Text-Guided Image Manipulation via Token-wise
Semantic Alignment and Generation [97.36550187238177]
実世界の実体レベルにおけるテキスト誘導画像操作に関する新しい課題について検討する。
このタスクは、(1)テキスト記述と整合したエンティティを編集すること、(2)テキスト関連領域を保存すること、(3)操作されたエンティティを自然に画像にマージすること、の3つの基本的な要件を課している。
本フレームワークでは,操作対象の画像領域を特定するためのセマンティックアライメントモジュールと,視覚と言語の関係の整合を支援するセマンティックアライメントモジュールを備えている。
論文 参考訳(メタデータ) (2022-04-09T09:01:19Z) - FlexIT: Towards Flexible Semantic Image Translation [59.09398209706869]
我々は,任意の入力画像とユーザが定義したテキストを編集するための新しい方法であるFlexITを提案する。
まず、FlexITは入力画像とテキストをCLIPマルチモーダル埋め込み空間内の単一のターゲットポイントに結合する。
我々は、入力画像を目標点に向けて反復的に変換し、新しい正規化用語で一貫性と品質を確保する。
論文 参考訳(メタデータ) (2022-03-09T13:34:38Z) - Embedding Arithmetic for Text-driven Image Transformation [48.7704684871689]
テキスト表現は、有名なアナロジーのような幾何学的規則性を示す。
最近の研究は、このセマンティックギャップを、画像とテキストをマルチモーダル空間に埋め込むことを目的としている。
SIMATデータセットを導入し,テキスト駆動画像変換の課題を評価する。
論文 参考訳(メタデータ) (2021-12-06T16:51:50Z) - Integrating Visuospatial, Linguistic and Commonsense Structure into
Story Visualization [81.26077816854449]
まず、構造的入力を符号化するための選挙区解析木の利用について検討する。
第二に、構造化されたインプットをコモンセンス情報で強化し、この外部知識が視覚的ストーリーの生成に与える影響について検討する。
第3に、境界ボックスと高密度キャプションによって視覚構造を組み込んで、生成された画像の文字やオブジェクトに関するフィードバックを提供する。
論文 参考訳(メタデータ) (2021-10-21T00:16:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。