論文の概要: GRIT: Faster and Better Image captioning Transformer Using Dual Visual
Features
- arxiv url: http://arxiv.org/abs/2207.09666v1
- Date: Wed, 20 Jul 2022 05:49:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-21 12:31:35.814931
- Title: GRIT: Faster and Better Image captioning Transformer Using Dual Visual
Features
- Title(参考訳): GRIT:デュアルビジュアル機能を使った高速で優れた画像キャプション変換器
- Authors: Van-Quang Nguyen, Masanori Suganuma, Takayuki Okatani
- Abstract要約: 本稿では,2つの視覚的特徴を効果的に活用し,より優れた字幕を生成する,GRIT(Grid-based and Region-based Image Casting Transformer)と呼ばれるトランスフォーマーのみのニューラルアーキテクチャを提案する。
GRITは従来のCNNベースの検出器をDETRベースの検出器に置き換え、計算速度が向上した。
いくつかの画像キャプションベンチマーク実験の結果,GRITは推定精度と速度において従来の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 27.64090331304677
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current state-of-the-art methods for image captioning employ region-based
features, as they provide object-level information that is essential to
describe the content of images; they are usually extracted by an object
detector such as Faster R-CNN. However, they have several issues, such as lack
of contextual information, the risk of inaccurate detection, and the high
computational cost. The first two could be resolved by additionally using
grid-based features. However, how to extract and fuse these two types of
features is uncharted. This paper proposes a Transformer-only neural
architecture, dubbed GRIT (Grid- and Region-based Image captioning
Transformer), that effectively utilizes the two visual features to generate
better captions. GRIT replaces the CNN-based detector employed in previous
methods with a DETR-based one, making it computationally faster. Moreover, its
monolithic design consisting only of Transformers enables end-to-end training
of the model. This innovative design and the integration of the dual visual
features bring about significant performance improvement. The experimental
results on several image captioning benchmarks show that GRIT outperforms
previous methods in inference accuracy and speed.
- Abstract(参考訳): 画像キャプションの現在の最先端技術では、画像の内容を記述するのに不可欠なオブジェクトレベル情報を提供するため、領域ベースの特徴が採用されている。
しかし、コンテキスト情報の欠如、不正確な検出のリスク、高い計算コストなど、いくつかの問題がある。
最初の2つはグリッドベースの機能の追加で解決できる。
しかし、これらの2つの特徴の抽出と融合の方法は未解決である。
本稿では,2つの視覚的特徴を効果的に活用してより良い字幕を生成する,GRIT(Grid-based Image Casting Transformer)と呼ばれるトランスフォーマーのみのニューラルアーキテクチャを提案する。
GRITは従来のCNNベースの検出器をDETRベースの検出器に置き換え、計算速度が向上した。
さらに、トランスフォーマーのみからなるモノリシックな設計により、モデルのエンドツーエンドなトレーニングが可能になる。
この革新的な設計とデュアルビジュアル機能の統合は、大幅なパフォーマンス改善をもたらす。
複数の画像キャプションベンチマーク実験の結果,gritは従来の手法よりも精度と速度が優れていた。
関連論文リスト
- Image-GS: Content-Adaptive Image Representation via 2D Gaussians [55.15950594752051]
本稿では,コンテンツ適応型画像表現であるImage-GSを提案する。
異方性2Dガウスアンをベースとして、Image-GSは高いメモリ効率を示し、高速なランダムアクセスをサポートし、自然なレベルのディテールスタックを提供する。
画像-GSの一般的な効率性と忠実性は、最近のニューラルイメージ表現と業界標準テクスチャ圧縮機に対して検証される。
この研究は、機械認識、アセットストリーミング、コンテンツ生成など、適応的な品質とリソース制御を必要とする新しいアプリケーションを開発するための洞察を与えてくれることを願っている。
論文 参考訳(メタデータ) (2024-07-02T00:45:21Z) - Nested-TNT: Hierarchical Vision Transformers with Multi-Scale Feature Processing [7.202931445597172]
トランスフォーマーは、自然言語処理における優れた性能のため、コンピュータビジョンの分野で応用されている。
本稿ではネストアルゴリズムを導入し,Nested-TNTを画像分類タスクに適用する。
この実験は、提案したモデルが、データセットCIFAR10では2.25%、データセットFLOWERS102では2.78%、0.25%を上回る、ViTとTNTよりも優れた分類性能を達成したことを確認した。
論文 参考訳(メタデータ) (2024-04-20T17:56:14Z) - Pure Transformer with Integrated Experts for Scene Text Recognition [11.089203218000854]
シーンテキスト認識(STR:Scene text recognition)は、自然のシーンの収穫された画像のテキストを読む作業である。
近年、変換器アーキテクチャはSTRで広く採用されており、長期依存を捕捉する強力な能力を示している。
本研究は,ハイブリッドCNN変換器モデルより優れた単純なベースラインとして,トランスフォーマーのみのモデルを提案する。
論文 参考訳(メタデータ) (2022-11-09T15:26:59Z) - OSIC: A New One-Stage Image Captioner Coined [38.46732302316068]
動的多視点学習を用いたワンステージ画像キャプタ(OSIC)を提案する。
リッチな特徴を得るためには、Swin Transformerを使ってマルチレベルの特徴を計算する。
キャプション用エンコーダのグローバルなモデリングを強化するために,新しい2次元精製モジュールを提案する。
論文 参考訳(メタデータ) (2022-11-04T08:50:09Z) - Injecting Semantic Concepts into End-to-End Image Captioning [61.41154537334627]
本稿では、地域特徴を抽出することなくグリッド表現を使用する、純粋視覚変換器を用いた画像キャプションモデルViTCAPを提案する。
性能向上のために,意味論的概念を予測し,それをエンドツーエンドのキャプションに組み込む新しいコンセプトトークンネットワーク(CTN)を導入する。
特に、CTNは視覚変換器に基づいて構築され、分類タスクを通じて概念トークンを予測するように設計されている。
論文 参考訳(メタデータ) (2021-12-09T22:05:05Z) - Transformer-Based Deep Image Matching for Generalizable Person
Re-identification [114.56752624945142]
画像マッチングと距離学習にトランスフォーマーを適用する可能性について検討する。
視覚変換器 (ViT) とデコーダ付きバニラ変換器 (Vanilla Transformer) はイメージ・ツー・イメージ・アテンションの欠如により画像マッチングに適していないことがわかった。
そこで本研究では,クエリキーの類似性のみを保ちながら,ソフトマックス重み付けによる注意の完全な実装を省略する,単純化されたデコーダを提案する。
論文 参考訳(メタデータ) (2021-05-30T05:38:33Z) - Primitive Representation Learning for Scene Text Recognition [7.818765015637802]
本研究では,シーンテキスト画像の固有表現を活用した原始表現学習手法を提案する。
プリミティブ表現学習ネットワーク(PREN)は、並列デコードに視覚テキスト表現を使用するために構築される。
また,注意に基づく手法における不整合問題を軽減するために PREN2D というフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-10T11:54:49Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z) - Spatially-Adaptive Pixelwise Networks for Fast Image Translation [57.359250882770525]
高速かつ効率的な画像-画像変換を目的とした新しいジェネレータアーキテクチャを提案する。
私たちはピクセルワイズネットワークを使用します。つまり、各ピクセルは他のピクセルとは独立して処理されます。
私たちのモデルは最先端のベースラインよりも最大18倍高速です。
論文 参考訳(メタデータ) (2020-12-05T10:02:03Z) - Temporal Distinct Representation Learning for Action Recognition [139.93983070642412]
2次元畳み込みニューラルネットワーク (2D CNN) はビデオの特徴付けに用いられる。
ビデオの異なるフレームは同じ2D CNNカーネルを共有しており、繰り返し、冗長な情報利用をもたらす可能性がある。
本稿では,異なるフレームからの特徴の識別チャネルを段階的にエキサイティングにするためのシーケンシャルチャネルフィルタリング機構を提案し,繰り返し情報抽出を回避する。
本手法は,ベンチマーク時相推論データセットを用いて評価し,それぞれ2.4%,1.3%の可視性向上を実現している。
論文 参考訳(メタデータ) (2020-07-15T11:30:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。