Fugu-MT 論文翻訳(概要): GRIT: Faster and Better Image captioning Transformer Using Dual Visual Features

論文の概要: GRIT: Faster and Better Image captioning Transformer Using Dual Visual Features

arxiv url: http://arxiv.org/abs/2207.09666v1
Date: Wed, 20 Jul 2022 05:49:01 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-21 12:31:35.814931
Title: GRIT: Faster and Better Image captioning Transformer Using Dual Visual Features
Title（参考訳）: GRIT:デュアルビジュアル機能を使った高速で優れた画像キャプション変換器
Authors: Van-Quang Nguyen, Masanori Suganuma, Takayuki Okatani
Abstract要約: 本稿では,2つの視覚的特徴を効果的に活用し,より優れた字幕を生成する,GRIT(Grid-based and Region-based Image Casting Transformer)と呼ばれるトランスフォーマーのみのニューラルアーキテクチャを提案する。 GRITは従来のCNNベースの検出器をDETRベースの検出器に置き換え、計算速度が向上した。いくつかの画像キャプションベンチマーク実験の結果,GRITは推定精度と速度において従来の手法よりも優れていた。
参考スコア（独自算出の注目度）: 27.64090331304677
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Current state-of-the-art methods for image captioning employ region-based features, as they provide object-level information that is essential to describe the content of images; they are usually extracted by an object detector such as Faster R-CNN. However, they have several issues, such as lack of contextual information, the risk of inaccurate detection, and the high computational cost. The first two could be resolved by additionally using grid-based features. However, how to extract and fuse these two types of features is uncharted. This paper proposes a Transformer-only neural architecture, dubbed GRIT (Grid- and Region-based Image captioning Transformer), that effectively utilizes the two visual features to generate better captions. GRIT replaces the CNN-based detector employed in previous methods with a DETR-based one, making it computationally faster. Moreover, its monolithic design consisting only of Transformers enables end-to-end training of the model. This innovative design and the integration of the dual visual features bring about significant performance improvement. The experimental results on several image captioning benchmarks show that GRIT outperforms previous methods in inference accuracy and speed.
Abstract（参考訳）: 画像キャプションの現在の最先端技術では、画像の内容を記述するのに不可欠なオブジェクトレベル情報を提供するため、領域ベースの特徴が採用されている。しかし、コンテキスト情報の欠如、不正確な検出のリスク、高い計算コストなど、いくつかの問題がある。最初の2つはグリッドベースの機能の追加で解決できる。しかし、これらの2つの特徴の抽出と融合の方法は未解決である。本稿では,2つの視覚的特徴を効果的に活用してより良い字幕を生成する,GRIT(Grid-based Image Casting Transformer)と呼ばれるトランスフォーマーのみのニューラルアーキテクチャを提案する。 GRITは従来のCNNベースの検出器をDETRベースの検出器に置き換え、計算速度が向上した。さらに、トランスフォーマーのみからなるモノリシックな設計により、モデルのエンドツーエンドなトレーニングが可能になる。この革新的な設計とデュアルビジュアル機能の統合は、大幅なパフォーマンス改善をもたらす。複数の画像キャプションベンチマーク実験の結果,gritは従来の手法よりも精度と速度が優れていた。

関連論文リスト

Text to Image for Multi-Label Image Recognition with Joint Prompt-Adapter Learning [69.33115351856785]
本稿では,PEFTのテキストキャプションのみを使用する場合のモダリティギャップ問題に対処するため,T2I-PALと呼ばれる新しい手法を提案する。 T2I-PALの中核となる設計は、事前訓練されたテキスト-画像生成モデルを利用して、テキストキャプションからフォトリアリスティックで多様な画像を生成することである。 MS-COCO、VOC2007、NAS-WIDEを含む複数のベンチマークに対する大規模な実験は、我々のT2I-PALが認識性能を平均3.47%向上させることができることを示している。
論文参考訳（メタデータ） (2025-06-12T11:09:49Z)
Good Representation, Better Explanation: Role of Convolutional Neural Networks in Transformer-Based Remote Sensing Image Captioning [0.6058427379240696]
リモートセンシング画像キャプチャ(RSIC)における12種類の畳み込みニューラルネットワーク(CNN)アーキテクチャをトランスフォーマーベースのエンコーダフレームワーク内で体系的に評価し,その有効性を評価する。その結果,キャプション性能向上におけるエンコーダ選択の重要性が強調され,特定のCNNアーキテクチャがリモートセンシング画像に対して生成した記述の品質を著しく向上させることが示された。
論文参考訳（メタデータ） (2025-02-22T05:36:28Z)
Image-GS: Content-Adaptive Image Representation via 2D Gaussians [55.15950594752051]
本稿では,コンテンツ適応型画像表現であるImage-GSを提案する。異方性2Dガウスアンをベースとして、Image-GSは高いメモリ効率を示し、高速なランダムアクセスをサポートし、自然なレベルのディテールスタックを提供する。画像-GSの一般的な効率性と忠実性は、最近のニューラルイメージ表現と業界標準テクスチャ圧縮機に対して検証される。この研究は、機械認識、アセットストリーミング、コンテンツ生成など、適応的な品質とリソース制御を必要とする新しいアプリケーションを開発するための洞察を与えてくれることを願っている。
論文参考訳（メタデータ） (2024-07-02T00:45:21Z)
Nested-TNT: Hierarchical Vision Transformers with Multi-Scale Feature Processing [7.202931445597172]
トランスフォーマーは、自然言語処理における優れた性能のため、コンピュータビジョンの分野で応用されている。本稿ではネストアルゴリズムを導入し,Nested-TNTを画像分類タスクに適用する。この実験は、提案したモデルが、データセットCIFAR10では2.25%、データセットFLOWERS102では2.78%、0.25%を上回る、ViTとTNTよりも優れた分類性能を達成したことを確認した。
論文参考訳（メタデータ） (2024-04-20T17:56:14Z)
Unifying Two-Stream Encoders with Transformers for Cross-Modal Retrieval [68.61855682218298]
クロスモーダル検索法では、画像とテキストの異なるアーキテクチャを持つ2ストリームエンコーダを用いる。視覚タスクにおけるトランスフォーマーの最近の進歩に触発されて,トランスフォーマーとエンコーダアーキテクチャを両モードで統一することを提案する。我々は、画像変換器、テキスト変換器、階層アライメントモジュールからなる2ストリーム変換器(textbfHierarchical Alignment Transformers, HAT)を純粋にベースとしたクロスモーダル検索フレームワークを設計する。
論文参考訳（メタデータ） (2023-08-08T15:43:59Z)
Pure Transformer with Integrated Experts for Scene Text Recognition [11.089203218000854]
シーンテキスト認識(STR:Scene text recognition)は、自然のシーンの収穫された画像のテキストを読む作業である。近年、変換器アーキテクチャはSTRで広く採用されており、長期依存を捕捉する強力な能力を示している。本研究は,ハイブリッドCNN変換器モデルより優れた単純なベースラインとして,トランスフォーマーのみのモデルを提案する。
論文参考訳（メタデータ） (2022-11-09T15:26:59Z)
OSIC: A New One-Stage Image Captioner Coined [38.46732302316068]
動的多視点学習を用いたワンステージ画像キャプタ(OSIC)を提案する。リッチな特徴を得るためには、Swin Transformerを使ってマルチレベルの特徴を計算する。キャプション用エンコーダのグローバルなモデリングを強化するために,新しい2次元精製モジュールを提案する。
論文参考訳（メタデータ） (2022-11-04T08:50:09Z)
Injecting Semantic Concepts into End-to-End Image Captioning [61.41154537334627]
本稿では、地域特徴を抽出することなくグリッド表現を使用する、純粋視覚変換器を用いた画像キャプションモデルViTCAPを提案する。性能向上のために,意味論的概念を予測し,それをエンドツーエンドのキャプションに組み込む新しいコンセプトトークンネットワーク(CTN)を導入する。特に、CTNは視覚変換器に基づいて構築され、分類タスクを通じて概念トークンを予測するように設計されている。
論文参考訳（メタデータ） (2021-12-09T22:05:05Z)
Transformer-Based Deep Image Matching for Generalizable Person Re-identification [114.56752624945142]
画像マッチングと距離学習にトランスフォーマーを適用する可能性について検討する。視覚変換器 (ViT) とデコーダ付きバニラ変換器 (Vanilla Transformer) はイメージ・ツー・イメージ・アテンションの欠如により画像マッチングに適していないことがわかった。そこで本研究では,クエリキーの類似性のみを保ちながら,ソフトマックス重み付けによる注意の完全な実装を省略する,単純化されたデコーダを提案する。
論文参考訳（メタデータ） (2021-05-30T05:38:33Z)
Primitive Representation Learning for Scene Text Recognition [7.818765015637802]
本研究では,シーンテキスト画像の固有表現を活用した原始表現学習手法を提案する。プリミティブ表現学習ネットワーク(PREN)は、並列デコードに視覚テキスト表現を使用するために構築される。また,注意に基づく手法における不整合問題を軽減するために PREN2D というフレームワークを提案する。
論文参考訳（メタデータ） (2021-05-10T11:54:49Z)
Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文参考訳（メタデータ） (2021-02-23T07:20:12Z)
Spatially-Adaptive Pixelwise Networks for Fast Image Translation [57.359250882770525]
高速かつ効率的な画像-画像変換を目的とした新しいジェネレータアーキテクチャを提案する。私たちはピクセルワイズネットワークを使用します。つまり、各ピクセルは他のピクセルとは独立して処理されます。私たちのモデルは最先端のベースラインよりも最大18倍高速です。
論文参考訳（メタデータ） (2020-12-05T10:02:03Z)
Temporal Distinct Representation Learning for Action Recognition [139.93983070642412]
2次元畳み込みニューラルネットワーク (2D CNN) はビデオの特徴付けに用いられる。ビデオの異なるフレームは同じ2D CNNカーネルを共有しており、繰り返し、冗長な情報利用をもたらす可能性がある。本稿では,異なるフレームからの特徴の識別チャネルを段階的にエキサイティングにするためのシーケンシャルチャネルフィルタリング機構を提案し,繰り返し情報抽出を回避する。本手法は,ベンチマーク時相推論データセットを用いて評価し,それぞれ2.4%,1.3%の可視性向上を実現している。
論文参考訳（メタデータ） (2020-07-15T11:30:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。