論文の概要: New Image Captioning Encoder via Semantic Visual Feature Matching for
Heavy Rain Images
- arxiv url: http://arxiv.org/abs/2105.13753v2
- Date: Mon, 31 May 2021 03:03:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-01 12:16:39.381061
- Title: New Image Captioning Encoder via Semantic Visual Feature Matching for
Heavy Rain Images
- Title(参考訳): 重雨画像に対する意味的特徴マッチングによる新しい画像キャプションエンコーダ
- Authors: Chang-Hwan Son, Pung-Hwi Ye
- Abstract要約: 本研究では,豪雨画像のキャプションのための新しいエンコーダを提案する。
中心となる考え方は、大雨の入力画像から抽出した出力特徴を、単語に関連する意味的な視覚特徴に変換することである。
提案するエンコーダは, 豪雨画像からでも, 単語に関連する意味的視覚的特徴を生成できることを実験的に実証した。
- 参考スコア(独自算出の注目度): 7.462336024223669
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image captioning generates text that describes scenes from input images. It
has been developed for high quality images taken in clear weather. However, in
bad weather conditions, such as heavy rain, snow, and dense fog, the poor
visibility owing to rain streaks, rain accumulation, and snowflakes causes a
serious degradation of image quality. This hinders the extraction of useful
visual features and results in deteriorated image captioning performance. To
address practical issues, this study introduces a new encoder for captioning
heavy rain images. The central idea is to transform output features extracted
from heavy rain input images into semantic visual features associated with
words and sentence context. To achieve this, a target encoder is initially
trained in an encoder-decoder framework to associate visual features with
semantic words. Subsequently, the objects in a heavy rain image are rendered
visible by using an initial reconstruction subnetwork (IRS) based on a heavy
rain model. The IRS is then combined with another semantic visual feature
matching subnetwork (SVFMS) to match the output features of the IRS with the
semantic visual features of the pretrained target encoder. The proposed encoder
is based on the joint learning of the IRS and SVFMS. It is is trained in an
end-to-end manner, and then connected to the pretrained decoder for image
captioning. It is experimentally demonstrated that the proposed encoder can
generate semantic visual features associated with words even from heavy rain
images, thereby increasing the accuracy of the generated captions.
- Abstract(参考訳): 画像キャプションは入力画像からシーンを記述するテキストを生成する。
晴天で撮影された高品質な画像のために開発された。
しかし、大雨、雪、濃霧などの悪天候では、雨乱れ、雨の蓄積、雪の結晶化などによる視認性が低下し、画質が著しく低下する。
これにより、有用な視覚特徴の抽出が妨げられ、画像キャプション性能が劣化する。
そこで本研究では,降雨画像のキャプションのためのエンコーダを提案する。
中心となる考え方は、重雨の入力画像から抽出した出力特徴を、単語や文コンテキストに関連する意味的な視覚特徴に変換することである。
これを実現するために、ターゲットエンコーダは、まずエンコーダ-デコーダフレームワークで訓練され、視覚的特徴とセマンティックワードを関連付ける。
その後、豪雨モデルに基づく初期再構成サブネットワーク(IRS)を用いて、豪雨画像中の物体を可視化する。
IRSは、ISRの出力特徴と事前訓練されたターゲットエンコーダのセマンティックビジュアル特徴とを一致させるために、別のセマンティックビジュアル特徴マッチングサブネットワーク(SVFMS)と結合される。
提案するエンコーダはISSとSVFMSの共同学習に基づいている。
エンドツーエンドでトレーニングされ、イメージキャプションのためにトレーニング済みのデコーダに接続される。
提案するエンコーダは,大雨画像からでも単語に関連付けられた意味的視覚的特徴を生成できるため,字幕の精度が向上することが実験的に実証された。
関連論文リスト
- Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - VCR: Visual Caption Restoration [80.24176572093512]
画像内の画素レベルのヒントを用いて、部分的に隠されたテキストを正確に復元するモデルに挑戦する視覚言語タスクであるVisual Caption Restoration (VCR)を導入する。
この課題は、画像に埋め込まれたテキストは、視覚、テキスト、および画像に埋め込まれたテキストのモダリティを整合させる必要があるため、共通の視覚要素や自然言語とは本質的に異なるという観察に由来する。
論文 参考訳(メタデータ) (2024-06-10T16:58:48Z) - Compressed Image Captioning using CNN-based Encoder-Decoder Framework [0.0]
畳み込みニューラルネットワーク(CNN)とエンコーダ・デコーダモデルの強みを組み合わせた自動画像キャプションアーキテクチャを開発した。
また、事前訓練されたCNNモデルの領域を掘り下げた性能比較も行います。
我々はまた,周波数正規化手法を統合して "AlexNet" と "EfficientNetB0" モデルを圧縮する手法についても検討した。
論文 参考訳(メタデータ) (2024-04-28T03:47:48Z) - DeCap: Decoding CLIP Latents for Zero-Shot Captioning via Text-Only
Training [73.74291217502928]
ゼロショットキャプションのための単純なフレームワークであるDeCapを提案する。
軽量な視覚認識言語デコーダを提案する。
視覚的な埋め込みはCLIPテキスト埋め込み空間に投影するが、投影された埋め込みは視覚的な入力の情報を保持する。
論文 参考訳(メタデータ) (2023-03-06T11:02:47Z) - Retrieval-augmented Image Captioning [15.266569206458648]
本稿では,入力画像とデータストアから検索したキャプションの集合が与えられた文を生成する画像キャプションに新たなアプローチを提案する。
我々のモデルにおけるエンコーダは、事前訓練されたV&L BERTを用いて、画像と検索されたキャプションを共同で処理する。
我々の研究は、標準分類タスクではなく、事前訓練されたV&Lエンコーダを生成タスクに利用することに貢献している。
論文 参考訳(メタデータ) (2023-02-16T12:54:13Z) - An Image captioning algorithm based on the Hybrid Deep Learning
Technique (CNN+GRU) [0.0]
本稿では,CNN-GRUエンコーダデコーダのキャプション・ツー・イメージ・コンストラクタ用デコーダフレームワークを提案する。
意味的なコンテキストと時間の複雑さを考慮に入れます。
提案モデルでは,画像キャプションのための最先端のLSTM-A5モデルよりも,時間的複雑性と精度が優れている。
論文 参考訳(メタデータ) (2023-01-06T10:00:06Z) - MaskOCR: Text Recognition with Masked Encoder-Decoder Pretraining [68.05105411320842]
本稿では,従来のエンコーダ・デコーダ認識フレームワークにおいて,視覚と言語を事前学習するための新しいアプローチであるMaskOCRを提案する。
マスク付き画像モデリング手法を用いて、未ラベルのテキスト画像の集合を用いて特徴エンコーダを事前学習する。
テキストデータを合成されたテキスト画像に変換し、視覚と言語のデータモダリティを統一し、シーケンスデコーダの言語モデリング能力を向上する。
論文 参考訳(メタデータ) (2022-06-01T08:27:19Z) - Injecting Semantic Concepts into End-to-End Image Captioning [61.41154537334627]
本稿では、地域特徴を抽出することなくグリッド表現を使用する、純粋視覚変換器を用いた画像キャプションモデルViTCAPを提案する。
性能向上のために,意味論的概念を予測し,それをエンドツーエンドのキャプションに組み込む新しいコンセプトトークンネットワーク(CTN)を導入する。
特に、CTNは視覚変換器に基づいて構築され、分類タスクを通じて概念トークンを予測するように設計されている。
論文 参考訳(メタデータ) (2021-12-09T22:05:05Z) - Visual-aware Attention Dual-stream Decoder for Video Captioning [12.139806877591212]
現在のビデオキャプション方式の注意機構は、各フレームに重みを割り当てることを学び、デコーダを動的に推進する。
これは、シーケンスフレームで抽出された視覚的特徴の相関と時間的コヒーレンスを明示的にモデル化するものではない。
本稿では,単語の時間的シーケンスフレームの変化を前回のモーメントで統一する,新しい視覚認識注意(VA)モデルを提案する。
VADD(Visual-Aware Attention Dual-stream Decoder)の有効性を示す。
論文 参考訳(メタデータ) (2021-10-16T14:08:20Z) - Beyond Monocular Deraining: Parallel Stereo Deraining Network Via
Semantic Prior [103.49307603952144]
ほとんどの既存の脱雨アルゴリズムは単一の入力画像のみを使用し、クリーンな画像の復元を目指しています。
本稿では,ステレオ画像とセマンティック情報の両方を利用するPaired Rain Removal Network(PRRNet)を提案する。
単分子および新たに提案したステレオ降雨データセットの両方の実験により,提案手法が最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2021-05-09T04:15:10Z) - SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text
Recognition [17.191496890376197]
そこで我々は,低品質シーンテキストを頑健に認識するために,エンコーダ・デコーダ・フレームワークを改良したセマンティクスを提案する。
提案するフレームワークは、低品質のテキスト画像に対してより堅牢であり、いくつかのベンチマークデータセットで最先端の結果が得られる。
論文 参考訳(メタデータ) (2020-05-22T03:02:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。