論文の概要: Image Captioning In the Transformer Age
- arxiv url: http://arxiv.org/abs/2204.07374v1
- Date: Fri, 15 Apr 2022 08:13:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-18 11:39:19.499402
- Title: Image Captioning In the Transformer Age
- Title(参考訳): 変圧器時代の画像キャプション
- Authors: Yang Xu, Li Li, Haiyang Xu, Songfang Huang, Fei Huang, Jianfei Cai
- Abstract要約: Image Captioning (IC)は、CNN-RNNエンコーダ・デコーダアーキテクチャに様々な技術を統合することで驚くべき発展を遂げた。
本稿では,ICと一般的な自己教師型学習パラダイムの関連性について分析する。
- 参考スコア(独自算出の注目度): 71.06437715212911
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image Captioning (IC) has achieved astonishing developments by incorporating
various techniques into the CNN-RNN encoder-decoder architecture. However,
since CNN and RNN do not share the basic network component, such a
heterogeneous pipeline is hard to be trained end-to-end where the visual
encoder will not learn anything from the caption supervision. This drawback
inspires the researchers to develop a homogeneous architecture that facilitates
end-to-end training, for which Transformer is the perfect one that has proven
its huge potential in both vision and language domains and thus can be used as
the basic component of the visual encoder and language decoder in an IC
pipeline. Meantime, self-supervised learning releases the power of the
Transformer architecture that a pre-trained large-scale one can be generalized
to various tasks including IC. The success of these large-scale models seems to
weaken the importance of the single IC task. However, we demonstrate that IC
still has its specific significance in this age by analyzing the connections
between IC with some popular self-supervised learning paradigms. Due to the
page limitation, we only refer to highly important papers in this short survey
and more related works can be found at
https://github.com/SjokerLily/awesome-image-captioning.
- Abstract(参考訳): 画像キャプション(ic)はcnn-rnnエンコーダ-デコーダアーキテクチャに様々な技法を組み込むことで驚くべき発展を遂げている。
しかし、CNNとRNNは基本的なネットワークコンポーネントを共有しないので、視覚エンコーダがキャプションの監督から何も学ばないような不均一なパイプラインをエンドツーエンドで訓練することは困難である。
この欠点は、Transformerが視覚と言語両方の分野で大きな可能性を証明した完璧なアーキテクチャであり、そのため、ICパイプラインのビジュアルエンコーダと言語デコーダの基本コンポーネントとして使用できる、エンドツーエンドのトレーニングを促進する均質なアーキテクチャを開発するきっかけとなった。
一方、自己教師あり学習は、事前訓練された大規模学習がicを含む様々なタスクに一般化できるトランスフォーマーアーキテクチャのパワーを解放する。
これらの大規模モデルの成功は、単一のICタスクの重要性を弱めるように思える。
しかし、ICと一般的な自己教師型学習パラダイムの関連性を分析することで、ICはいまだにこの時代において重要な存在であることを示す。
ページ制限のため、この短い調査で非常に重要な論文のみを参照し、関連する作品はhttps://github.com/sjokerlily/awesome-image-captioningで見ることができる。
関連論文リスト
- STA-Unet: Rethink the semantic redundant for Medical Imaging Segmentation [1.9526521731584066]
スーパートークン注意(Super Token Attention, STA)機構は、スーパートークンをコンパクトな視覚表現として用い、ピクセル空間からトークン空間へのスーパーピクセルの概念を適応させる。
本研究では、豊富な情報を失うことなく冗長性を抑えるために、UNetアーキテクチャ(STA-UNet)にSTAモジュールを導入する。
4つの公開データセットの実験結果は、既存の最先端アーキテクチャよりもSTA-UNetの方が優れていることを示している。
論文 参考訳(メタデータ) (2024-10-13T07:19:46Z) - Dilated-UNet: A Fast and Accurate Medical Image Segmentation Approach
using a Dilated Transformer and U-Net Architecture [0.6445605125467572]
本稿では,Dilated-UNetについて紹介する。Dilated-UNetはDilated TransformerブロックとU-Netアーキテクチャを組み合わせることで,高精度かつ高速な医用画像セグメンテーションを実現する。
実験の結果,Dilated-UNetはいくつかの挑戦的な医用画像セグメンテーションデータセットにおいて,他のモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-04-22T17:20:13Z) - LAVT: Language-Aware Vision Transformer for Referring Image Segmentation [80.54244087314025]
視覚トランスフォーマーエンコーダネットワークにおいて,言語的特徴と視覚的特徴を早期に融合することにより,より優れたモーダルアライメントを実現することができることを示す。
提案手法は,RefCOCO,RefCO+,G-Refの従来の最先端手法を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-12-04T04:53:35Z) - IICNet: A Generic Framework for Reversible Image Conversion [40.21904131503064]
Reversible Image conversion (RIC) は、特定の視覚コンテンツ(例えばショートビデオ)と埋め込み画像の間の可逆変換を構築することを目的としている。
Invertible Image Conversion Net (IICNet) は、強力な容量とタスクに依存しない設計のため、様々なRICタスクに対する汎用的なソリューションである。
論文 参考訳(メタデータ) (2021-09-09T13:06:59Z) - UTNet: A Hybrid Transformer Architecture for Medical Image Segmentation [6.646135062704341]
トランスフォーマーアーキテクチャは多くの自然言語処理タスクで成功している。
医用画像セグメンテーションを強化するために,自己意識を畳み込みニューラルネットワークに統合する強力なハイブリッドトランスフォーマーアーキテクチャUTNetを提案する。
論文 参考訳(メタデータ) (2021-07-02T00:56:27Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。
トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文 参考訳(メタデータ) (2021-05-12T09:30:26Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z) - Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective
with Transformers [149.78470371525754]
セマンティックセグメンテーションをシーケンスからシーケンスへの予測タスクとして扱う。
具体的には、イメージをパッチのシーケンスとしてエンコードするために純粋なトランスをデプロイします。
トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供するための単純なデコーダと組み合わせることができる。
SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapesの競争力のある結果に関する最新技術を達成している。
論文 参考訳(メタデータ) (2020-12-31T18:55:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。