論文の概要: GRIT: Faster and Better Image captioning Transformer Using Dual Visual
Features
- arxiv url: http://arxiv.org/abs/2207.09666v1
- Date: Wed, 20 Jul 2022 05:49:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-21 12:31:35.814931
- Title: GRIT: Faster and Better Image captioning Transformer Using Dual Visual
Features
- Title(参考訳): GRIT:デュアルビジュアル機能を使った高速で優れた画像キャプション変換器
- Authors: Van-Quang Nguyen, Masanori Suganuma, Takayuki Okatani
- Abstract要約: 本稿では,2つの視覚的特徴を効果的に活用し,より優れた字幕を生成する,GRIT(Grid-based and Region-based Image Casting Transformer)と呼ばれるトランスフォーマーのみのニューラルアーキテクチャを提案する。
GRITは従来のCNNベースの検出器をDETRベースの検出器に置き換え、計算速度が向上した。
いくつかの画像キャプションベンチマーク実験の結果,GRITは推定精度と速度において従来の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 27.64090331304677
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current state-of-the-art methods for image captioning employ region-based
features, as they provide object-level information that is essential to
describe the content of images; they are usually extracted by an object
detector such as Faster R-CNN. However, they have several issues, such as lack
of contextual information, the risk of inaccurate detection, and the high
computational cost. The first two could be resolved by additionally using
grid-based features. However, how to extract and fuse these two types of
features is uncharted. This paper proposes a Transformer-only neural
architecture, dubbed GRIT (Grid- and Region-based Image captioning
Transformer), that effectively utilizes the two visual features to generate
better captions. GRIT replaces the CNN-based detector employed in previous
methods with a DETR-based one, making it computationally faster. Moreover, its
monolithic design consisting only of Transformers enables end-to-end training
of the model. This innovative design and the integration of the dual visual
features bring about significant performance improvement. The experimental
results on several image captioning benchmarks show that GRIT outperforms
previous methods in inference accuracy and speed.
- Abstract(参考訳): 画像キャプションの現在の最先端技術では、画像の内容を記述するのに不可欠なオブジェクトレベル情報を提供するため、領域ベースの特徴が採用されている。
しかし、コンテキスト情報の欠如、不正確な検出のリスク、高い計算コストなど、いくつかの問題がある。
最初の2つはグリッドベースの機能の追加で解決できる。
しかし、これらの2つの特徴の抽出と融合の方法は未解決である。
本稿では,2つの視覚的特徴を効果的に活用してより良い字幕を生成する,GRIT(Grid-based Image Casting Transformer)と呼ばれるトランスフォーマーのみのニューラルアーキテクチャを提案する。
GRITは従来のCNNベースの検出器をDETRベースの検出器に置き換え、計算速度が向上した。
さらに、トランスフォーマーのみからなるモノリシックな設計により、モデルのエンドツーエンドなトレーニングが可能になる。
この革新的な設計とデュアルビジュアル機能の統合は、大幅なパフォーマンス改善をもたらす。
複数の画像キャプションベンチマーク実験の結果,gritは従来の手法よりも精度と速度が優れていた。
関連論文リスト
- Bootstrapping Interactive Image-Text Alignment for Remote Sensing Image
Captioning [49.48946808024608]
BITAと呼ばれるリモートセンシング画像キャプションのための対話型画像テキストアライメントをブートストラップする2段階の視覚言語事前学習手法を提案する。
具体的には、第1段階は画像テキストコントラスト学習による予備的なアライメントを含む。
第2段階では、インタラクティブなフーリエ変換器が凍結画像エンコーダと大きな言語モデルとを接続する。
論文 参考訳(メタデータ) (2023-12-02T17:32:17Z) - Pure Transformer with Integrated Experts for Scene Text Recognition [11.089203218000854]
シーンテキスト認識(STR:Scene text recognition)は、自然のシーンの収穫された画像のテキストを読む作業である。
近年、変換器アーキテクチャはSTRで広く採用されており、長期依存を捕捉する強力な能力を示している。
本研究は,ハイブリッドCNN変換器モデルより優れた単純なベースラインとして,トランスフォーマーのみのモデルを提案する。
論文 参考訳(メタデータ) (2022-11-09T15:26:59Z) - OSIC: A New One-Stage Image Captioner Coined [38.46732302316068]
動的多視点学習を用いたワンステージ画像キャプタ(OSIC)を提案する。
リッチな特徴を得るためには、Swin Transformerを使ってマルチレベルの特徴を計算する。
キャプション用エンコーダのグローバルなモデリングを強化するために,新しい2次元精製モジュールを提案する。
論文 参考訳(メタデータ) (2022-11-04T08:50:09Z) - Injecting Semantic Concepts into End-to-End Image Captioning [61.41154537334627]
本稿では、地域特徴を抽出することなくグリッド表現を使用する、純粋視覚変換器を用いた画像キャプションモデルViTCAPを提案する。
性能向上のために,意味論的概念を予測し,それをエンドツーエンドのキャプションに組み込む新しいコンセプトトークンネットワーク(CTN)を導入する。
特に、CTNは視覚変換器に基づいて構築され、分類タスクを通じて概念トークンを予測するように設計されている。
論文 参考訳(メタデータ) (2021-12-09T22:05:05Z) - TRIG: Transformer-Based Text Recognizer with Initial Embedding Guidance [15.72669617789124]
シーンテキスト認識(STR)は画像とテキストの間の重要なブリッジである。
最近の手法では、凍結初期埋め込みを使用してデコーダを誘導し、特徴をテキストにデコードし、精度が低下する。
TRansformer-based text recognizer with Initial embeddeding Guidance (TRIG) という,テキスト認識のための新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-11-16T09:10:39Z) - Transformer-Based Deep Image Matching for Generalizable Person
Re-identification [114.56752624945142]
画像マッチングと距離学習にトランスフォーマーを適用する可能性について検討する。
視覚変換器 (ViT) とデコーダ付きバニラ変換器 (Vanilla Transformer) はイメージ・ツー・イメージ・アテンションの欠如により画像マッチングに適していないことがわかった。
そこで本研究では,クエリキーの類似性のみを保ちながら,ソフトマックス重み付けによる注意の完全な実装を省略する,単純化されたデコーダを提案する。
論文 参考訳(メタデータ) (2021-05-30T05:38:33Z) - Primitive Representation Learning for Scene Text Recognition [7.818765015637802]
本研究では,シーンテキスト画像の固有表現を活用した原始表現学習手法を提案する。
プリミティブ表現学習ネットワーク(PREN)は、並列デコードに視覚テキスト表現を使用するために構築される。
また,注意に基づく手法における不整合問題を軽減するために PREN2D というフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-10T11:54:49Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z) - Spatially-Adaptive Pixelwise Networks for Fast Image Translation [57.359250882770525]
高速かつ効率的な画像-画像変換を目的とした新しいジェネレータアーキテクチャを提案する。
私たちはピクセルワイズネットワークを使用します。つまり、各ピクセルは他のピクセルとは独立して処理されます。
私たちのモデルは最先端のベースラインよりも最大18倍高速です。
論文 参考訳(メタデータ) (2020-12-05T10:02:03Z) - Temporal Distinct Representation Learning for Action Recognition [139.93983070642412]
2次元畳み込みニューラルネットワーク (2D CNN) はビデオの特徴付けに用いられる。
ビデオの異なるフレームは同じ2D CNNカーネルを共有しており、繰り返し、冗長な情報利用をもたらす可能性がある。
本稿では,異なるフレームからの特徴の識別チャネルを段階的にエキサイティングにするためのシーケンシャルチャネルフィルタリング機構を提案し,繰り返し情報抽出を回避する。
本手法は,ベンチマーク時相推論データセットを用いて評価し,それぞれ2.4%,1.3%の可視性向上を実現している。
論文 参考訳(メタデータ) (2020-07-15T11:30:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。