Fugu-MT 論文翻訳(概要): CPTR: Full Transformer Network for Image Captioning

論文の概要: CPTR: Full Transformer Network for Image Captioning

arxiv url: http://arxiv.org/abs/2101.10804v3
Date: Thu, 28 Jan 2021 04:38:38 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-13 19:51:43.125458
Title: CPTR: Full Transformer Network for Image Captioning
Title（参考訳）: CPTR:画像キャプチャのためのフルトランスネットワーク
Authors: Wei Liu, Sihan Chen, Longteng Guo, Xinxin Zhu, Jing Liu
Abstract要約: CaPtion TransformeR(CPTR)は、シーケンシャル化された生画像をTransformerへの入力として取り込む。 cnn+transformer"設計パラダイムと比較すると,本モデルは最初からすべてのエンコーダ層でグローバルコンテキストをモデル化することができる。
参考スコア（独自算出の注目度）: 15.869556479220984
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we consider the image captioning task from a new sequence-to-sequence prediction perspective and propose CaPtion TransformeR (CPTR) which takes the sequentialized raw images as the input to Transformer. Compared to the "CNN+Transformer" design paradigm, our model can model global context at every encoder layer from the beginning and is totally convolution-free. Extensive experiments demonstrate the effectiveness of the proposed model and we surpass the conventional "CNN+Transformer" methods on the MSCOCO dataset. Besides, we provide detailed visualizations of the self-attention between patches in the encoder and the "words-to-patches" attention in the decoder thanks to the full Transformer architecture.
Abstract（参考訳）: 本稿では,画像キャプションタスクを新しいシーケンスからシーケンスへ予測する視点から検討し,逐次的なraw画像をトランスフォーマティブに入力するキャプショントランスフォーマ(cptr)を提案する。 cnn+transformer"設計パラダイムと比較すると,本モデルは最初からすべてのエンコーダ層でグローバルコンテキストをモデル化でき,完全に畳み込み不要である。 MSCOCOデータセット上で,提案モデルの有効性を実証し,従来のCNN+Transformer法を超越した実験を行った。さらに、エンコーダのパッチとデコーダの"words-to-patches"注意の間の自己アテンションを、完全なトランスフォーマアーキテクチャによって詳細に可視化する。

関連論文リスト

FE-LWS: Refined Image-Text Representations via Decoder Stacking and Fused Encodings for Remote Sensing Image Captioning [0.15346678870160887]
本稿では、2つの異なるCNNベースのエンコーダの特徴を統合する新しいアプローチを提案する。また、重み付きデコーダにおける全GRUの出力を結合する重み付き平均化手法を提案する。以上の結果から,我々の核融合に基づくアプローチは,拡張スタックデコーダとともに,トランスフォーマーベースモデルと他のLSTMベースラインとを著しく上回る結果となった。
論文参考訳（メタデータ） (2025-02-13T12:54:13Z)
Patch Is Not All You Need [57.290256181083016]
本稿では,画像の変換を適応的に変換する新しいパターン変換器を提案する。我々は畳み込みニューラルネットワークを用いて入力画像から様々なパターンを抽出する。我々は,CIFAR-10とCIFAR-100で最先端のパフォーマンスを達成し,ImageNet上での競合的な結果を得た。
論文参考訳（メタデータ） (2023-08-21T13:54:00Z)
AICT: An Adaptive Image Compression Transformer [18.05997169440533]
我々は、より単純で効果的なTranformerベースのチャネルワイド自動回帰事前モデルを提案し、絶対画像圧縮変換器(ICT)を実現する。提案したICTは、潜在表現からグローバルとローカルの両方のコンテキストをキャプチャできる。我々は、サンドイッチのConvNeXtベースのプリ/ポストプロセッサで学習可能なスケーリングモジュールを活用し、よりコンパクトな潜在表現を正確に抽出する。
論文参考訳（メタデータ） (2023-07-12T11:32:02Z)
Neural Data-Dependent Transform for Learned Image Compression [72.86505042102155]
ニューラルデータに依存した変換を構築し,各画像の符号化効率を最適化する連続オンラインモード決定機構を導入する。実験の結果,提案したニューラルシンタクス設計と連続オンラインモード決定機構の有効性が示された。
論文参考訳（メタデータ） (2022-03-09T14:56:48Z)
Towards End-to-End Image Compression and Analysis with Transformers [99.50111380056043]
本稿では,クラウドベースの画像分類アプリケーションを対象として,トランスフォーマーを用いたエンドツーエンドの画像圧縮解析モデルを提案する。我々は、圧縮された特徴から画像分類を行うためにビジョントランスフォーマー(ViT)モデルを再設計し、トランスフォーマーからの長期情報を用いて画像圧縮を容易にすることを目指している。画像圧縮と分類作業の両方において,提案モデルの有効性を示す実験結果が得られた。
論文参考訳（メタデータ） (2021-12-17T03:28:14Z)
Transformer-based Image Compression [18.976159633970177]
Transformer-based Image Compression (TIC) アプローチは、標準変分オートエンコーダ(VAE)アーキテクチャをメインおよびハイパーエンコーダデコーダのペアで再利用する。 TICは、Deep Convolutional Neural Network(CNN)ベースの学習画像符号化(lic)メソッドや、最近承認されたVersatile Video Coding(VVC)標準のハンドクラフトルールベースの内部プロファイルなど、最先端のアプローチと競合する。
論文参考訳（メタデータ） (2021-11-12T13:13:20Z)
Fully Transformer Networks for Semantic ImageSegmentation [26.037770622551882]
エンコーダデコーダをベースとしたFully Transformer Networks (FTN) を用いた意味的イメージセグメンテーションのための新しいフレームワークについて検討する。階層的特徴を段階的に学習するエンコーダとして、標準視覚変換器(ViT)の計算複雑性を低減しつつ、ピラミッド群変換器(PGT)を提案する。次に,セマンティックイメージセグメンテーションのためのPGTエンコーダの複数レベルから意味レベルと空間レベル情報を融合する特徴ピラミッドトランス (FPT) を提案する。
論文参考訳（メタデータ） (2021-06-08T05:15:28Z)
Rethinking Global Context in Crowd Counting [70.54184500538338]
純粋な変換器は、重なり合う画像パッチからグローバル情報で特徴を抽出するために用いられる。分類によってインスピレーションを得て、入力シーケンスにコンテキストトークンを追加し、画像パッチに対応するトークンと情報交換を容易にする。
論文参考訳（メタデータ） (2021-05-23T12:44:27Z)
Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文参考訳（メタデータ） (2021-05-12T09:30:26Z)
Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers [149.78470371525754]
セマンティックセグメンテーションをシーケンスからシーケンスへの予測タスクとして扱う。具体的には、イメージをパッチのシーケンスとしてエンコードするために純粋なトランスをデプロイします。トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供するための単純なデコーダと組み合わせることができる。 SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapesの競争力のある結果に関する最新技術を達成している。
論文参考訳（メタデータ） (2020-12-31T18:55:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。