論文の概要: HAAV: Hierarchical Aggregation of Augmented Views for Image Captioning
- arxiv url: http://arxiv.org/abs/2305.16295v1
- Date: Thu, 25 May 2023 17:50:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-05-26 13:23:20.580413
- Title: HAAV: Hierarchical Aggregation of Augmented Views for Image Captioning
- Title(参考訳): HAAV:画像キャプションのための拡張ビューの階層的集約
- Authors: Chia-Wen Kuo and Zsolt Kira
- Abstract要約: 本稿では,エンコーディングを入力画像の拡張ビューとみなす。
画像キャプションモデルは、共有エンコーダと独立して各ビューをエンコードする。
我々は,MS-COCOでは+5.6%,Flickr30kでは+12.9%の性能向上を示す。
- 参考スコア(独自算出の注目度): 25.728621355173626
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: A great deal of progress has been made in image captioning, driven by
research into how to encode the image using pre-trained models. This includes
visual encodings (e.g. image grid features or detected objects) and more
recently textual encodings (e.g. image tags or text descriptions of image
regions). As more advanced encodings are available and incorporated, it is
natural to ask: how to efficiently and effectively leverage the heterogeneous
set of encodings? In this paper, we propose to regard the encodings as
augmented views of the input image. The image captioning model encodes each
view independently with a shared encoder efficiently, and a contrastive loss is
incorporated across the encoded views in a novel way to improve their
representation quality and the model's data efficiency. Our proposed
hierarchical decoder then adaptively weighs the encoded views according to
their effectiveness for caption generation by first aggregating within each
view at the token level, and then across views at the view level. We
demonstrate significant performance improvements of +5.6% CIDEr on MS-COCO and
+12.9% CIDEr on Flickr30k compared to state of the arts, and conduct rigorous
analyses to demonstrate the importance of each part of our design.
- Abstract(参考訳): 事前訓練されたモデルを用いて画像をエンコードする方法の研究によって、画像キャプションが大幅に進歩した。
これには視覚的エンコーディング(画像グリッド機能や検出されたオブジェクトなど)や、より最近のテキストエンコーディング(画像タグや画像領域のテキスト記述など)が含まれる。
より高度なエンコーディングが利用可能で、組み込まれているため、いかに効率良く効果的にエンコーディングのセットを活用するかという質問は自然である。
本稿では,エンコーディングを入力画像の拡張ビューとして捉えることを提案する。
画像キャプションモデルは、共有エンコーダと独立して各ビューを符号化し、その表示品質とモデルのデータ効率を向上する新規な方法で、符号化されたビューにコントラスト損失を組み込む。
提案する階層デコーダは,まずトークンレベルで各ビュー内を集約し,次にビューレベルでのビューを横断することにより,キャプション生成の有効性に応じて,符号化されたビューを適応的に評価する。
ms-cocoで+5.6%、flickr30kで+12.9%、state of the artsで+5.6%、そして厳密な分析を行い、デザインの各部分の重要性を実証した。
関連論文リスト
- Good Representation, Better Explanation: Role of Convolutional Neural Networks in Transformer-Based Remote Sensing Image Captioning [0.6058427379240696]
リモートセンシング画像キャプチャ(RSIC)における12種類の畳み込みニューラルネットワーク(CNN)アーキテクチャをトランスフォーマーベースのエンコーダフレームワーク内で体系的に評価し,その有効性を評価する。
その結果,キャプション性能向上におけるエンコーダ選択の重要性が強調され,特定のCNNアーキテクチャがリモートセンシング画像に対して生成した記述の品質を著しく向上させることが示された。
論文 参考訳(メタデータ) (2025-02-22T05:36:28Z) - FE-LWS: Refined Image-Text Representations via Decoder Stacking and Fused Encodings for Remote Sensing Image Captioning [0.15346678870160887]
本稿では、2つの異なるCNNベースのエンコーダの特徴を統合する新しいアプローチを提案する。
また、重み付きデコーダにおける全GRUの出力を結合する重み付き平均化手法を提案する。
以上の結果から,我々の核融合に基づくアプローチは,拡張スタックデコーダとともに,トランスフォーマーベースモデルと他のLSTMベースラインとを著しく上回る結果となった。
論文 参考訳(メタデータ) (2025-02-13T12:54:13Z) - CAT: Content-Adaptive Image Tokenization [92.2116487267877]
本稿では,CAT(Content-Adaptive Tokenizer)を導入し,画像の内容に基づいて表現能力を調整し,より単純な画像をより少ないトークンにエンコードする。
本研究では,大容量言語モデル(LLM)を利用したキャプションベース評価システムの設計を行い,コンテントの複雑さを予測し,与えられた画像に対する最適な圧縮比を決定する。
トークン割り当てを最適化することで、CATは同じフロップでトレーニングされた固定比率ベースラインよりもFIDスコアを改善し、推論スループットを18.5%向上させる。
論文 参考訳(メタデータ) (2025-01-06T16:28:47Z) - A TextGCN-Based Decoding Approach for Improving Remote Sensing Image Captioning [0.15346678870160887]
テキストグラフ畳み込みネットワーク(TextGCN)と多層LSTMをデプロイする新しいエンコーダデコーダ構成を提案する。
TextGCNによって生成された埋め込みは、文レベルとコーパスレベルの両方で単語間の意味的関係をキャプチャすることでデコーダの理解を高める。
我々は,他の最先端のエンコーダ・デコーダフレームワークに対して,我々のアプローチを広範囲に評価する。
論文 参考訳(メタデータ) (2024-09-27T06:12:31Z) - Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - Compressed Image Captioning using CNN-based Encoder-Decoder Framework [0.0]
畳み込みニューラルネットワーク(CNN)とエンコーダ・デコーダモデルの強みを組み合わせた自動画像キャプションアーキテクチャを開発した。
また、事前訓練されたCNNモデルの領域を掘り下げた性能比較も行います。
我々はまた,周波数正規化手法を統合して "AlexNet" と "EfficientNetB0" モデルを圧縮する手法についても検討した。
論文 参考訳(メタデータ) (2024-04-28T03:47:48Z) - MVAM: Multi-View Attention Method for Fine-grained Image-Text Matching [65.87255122130188]
画像テキストマッチングのためのMVAM(Multi-view Attention Method)を提案する。
また、入力データの異なる側面に注目するよう注意を喚起する目的も取り入れている。
提案手法により,異なる視点から画像やテキストをエンコードし,より重要な詳細に焦点を合わせることが可能となり,マッチング性能が向上する。
論文 参考訳(メタデータ) (2024-02-27T06:11:54Z) - Towards Accurate Image Coding: Improved Autoregressive Image Generation
with Dynamic Vector Quantization [73.52943587514386]
既存のベクトル量子化(VQ)ベースの自己回帰モデルは、2段階生成パラダイムに従う。
画像領域を可変長符号に符号化する動的量子化VAE(DQ-VAE)を提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:05Z) - Generalized Decoding for Pixel, Image, and Language [197.85760901840177]
画素レベルのセグメンテーションと言語トークンをシームレスに予測できる一般化デコードモデルであるX-Decoderを提案する。
X-Decoderは、すべてのタイプのイメージセグメンテーションと様々な視覚言語(VL)タスクをサポートする統一された方法を提供する最初の作品である。
論文 参考訳(メタデータ) (2022-12-21T18:58:41Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - Image Captioning based on Feature Refinement and Reflective Decoding [0.0]
本稿では,エンコーダデコーダを用いた画像キャプションシステムを提案する。
画像の各領域の空間的特徴とグローバルな特徴をResNet-101をバックボーンとしてFaster R-CNNを使って抽出する。
デコーダはアテンションベースのリカレントモジュールとリフレクティブアテンションモジュールからなり、デコーダの長期的なシーケンシャル依存関係をモデル化する能力を高める。
論文 参考訳(メタデータ) (2022-06-16T07:56:28Z) - MaskOCR: Text Recognition with Masked Encoder-Decoder Pretraining [68.05105411320842]
本稿では,従来のエンコーダ・デコーダ認識フレームワークにおいて,視覚と言語を事前学習するための新しいアプローチであるMaskOCRを提案する。
マスク付き画像モデリング手法を用いて、未ラベルのテキスト画像の集合を用いて特徴エンコーダを事前学習する。
テキストデータを合成されたテキスト画像に変換し、視覚と言語のデータモダリティを統一し、シーケンスデコーダの言語モデリング能力を向上する。
論文 参考訳(メタデータ) (2022-06-01T08:27:19Z) - Injecting Semantic Concepts into End-to-End Image Captioning [61.41154537334627]
本稿では、地域特徴を抽出することなくグリッド表現を使用する、純粋視覚変換器を用いた画像キャプションモデルViTCAPを提案する。
性能向上のために,意味論的概念を予測し,それをエンドツーエンドのキャプションに組み込む新しいコンセプトトークンネットワーク(CTN)を導入する。
特に、CTNは視覚変換器に基づいて構築され、分類タスクを通じて概念トークンを予測するように設計されている。
論文 参考訳(メタデータ) (2021-12-09T22:05:05Z) - Image Captioning using Deep Stacked LSTMs, Contextual Word Embeddings
and Data Augmentation [1.2183405753834562]
Inception-ResNet Convolutional Neural Network をエンコーダとして,画像から特徴を抽出する。
また、単語表現には階層型コンテキストベースのWord Embeddings、デコーダにはDeep Stacked Long Term Memory Networkを使用します。
提案手法をデコーダとソフトアテンションの2つの画像キャプションフレームワークを用いて評価する。
論文 参考訳(メタデータ) (2021-02-22T18:15:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。