論文の概要: RATT: Recurrent Attention to Transient Tasks for Continual Image
Captioning
- arxiv url: http://arxiv.org/abs/2007.06271v2
- Date: Thu, 29 Oct 2020 11:20:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 23:12:53.255011
- Title: RATT: Recurrent Attention to Transient Tasks for Continual Image
Captioning
- Title(参考訳): RATT: 連続した画像キャプションのための過渡的タスクへの繰り返しの注意
- Authors: Riccardo Del Chiaro, Bart{\l}omiej Twardowski, Andrew D. Bagdanov,
Joost van de Weijer
- Abstract要約: 画像キャプションのためのLSTMに基づくモデルの連続学習を体系的に検討する。
本稿では,連続的な画像キャプションタスクにおける語彙の過渡的な性質を明確化するための注意に基づくアプローチを提案する。
以上の結果から,RATTは5つのキャプションタスクを逐次学習できると同時に,従来学習したタスクを忘れることもないことがわかった。
- 参考スコア(独自算出の注目度): 39.015715010740486
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Research on continual learning has led to a variety of approaches to
mitigating catastrophic forgetting in feed-forward classification networks.
Until now surprisingly little attention has been focused on continual learning
of recurrent models applied to problems like image captioning. In this paper we
take a systematic look at continual learning of LSTM-based models for image
captioning. We propose an attention-based approach that explicitly accommodates
the transient nature of vocabularies in continual image captioning tasks --
i.e. that task vocabularies are not disjoint. We call our method Recurrent
Attention to Transient Tasks (RATT), and also show how to adapt continual
learning approaches based on weight egularization and knowledge distillation to
recurrent continual learning problems. We apply our approaches to incremental
image captioning problem on two new continual learning benchmarks we define
using the MS-COCO and Flickr30 datasets. Our results demonstrate that RATT is
able to sequentially learn five captioning tasks while incurring no forgetting
of previously learned ones.
- Abstract(参考訳): 連続学習の研究は、フィードフォワード分類ネットワークにおける壊滅的な忘れを緩和するための様々なアプローチにつながった。
これまで、画像キャプションなどの問題に適用された繰り返しモデルの継続的な学習にはほとんど注目されていなかった。
本稿では,画像キャプションのためのLSTMベースモデルの連続学習を体系的に検討する。
本稿では,連続的なイメージキャプションタスクにおける語彙の過渡的な性質を明確化するための注意に基づくアプローチを提案する。
提案手法をRATT(Recurrent Attention to Transient Tasks)と呼び,重み付けの偏りと知識の蒸留に基づく連続学習アプローチを連続学習問題に適用する方法を示す。
我々は,MS-COCOとFlickr30データセットを用いて定義した2つの連続学習ベンチマークに対して,インクリメンタルな画像キャプション問題に適用する。
その結果,過去の学習課題を忘れることなく,逐次5つのキャプションタスクを学習できることがわかった。
関連論文リスト
- Revolutionizing Text-to-Image Retrieval as Autoregressive Token-to-Voken Generation [90.71613903956451]
テキスト・ツー・イメージ検索はマルチメディア処理における基本的な課題である。
本稿では,AVGという自己回帰ボウケン生成手法を提案する。
AVGは有効性と有効性の両方において優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2024-07-24T13:39:51Z) - Continuously Learning New Words in Automatic Speech Recognition [56.972851337263755]
本稿では,新たな単語認識のための自己教師付き連続学習手法を提案する。
過去の研究から,メモリ拡張型自動音声認識モデルを用いた。
提案手法により,新たな単語の出現頻度が高くなると,新たな単語のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-01-09T10:39:17Z) - Tem-adapter: Adapting Image-Text Pretraining for Video Question Answer [79.20605034378187]
ビデオ言語事前学習モデルは、ビデオ質問応答タスクの指導において顕著な成功を収めている。
ビデオシーケンスの長さのため、大規模なビデオベースモデルのトレーニングは、画像ベースモデルのトレーニングよりもかなりコストがかかる。
これは、画像ドメインとビデオドメインの間に明らかなギャップがあるにもかかわらず、画像ベースの事前学習からの知識を活用する動機となります。
論文 参考訳(メタデータ) (2023-08-16T15:00:50Z) - Self-Supervised Image Captioning with CLIP [0.0]
本稿では,自己監督型画像キャプション手法を提案する。
小さなラベル付きデータセットから初期信号を学んだ後、ラベルなしデータに基づいて自己教師付き学習に移行する。
ラベル付きCOCOデータセットの2%未満を活用するにもかかわらず、我々の手法は完全なデータセットでトレーニングされた最先端モデルに匹敵するパフォーマンスを提供する。
論文 参考訳(メタデータ) (2023-06-26T23:29:16Z) - Multi-Modal Representation Learning with Text-Driven Soft Masks [48.19806080407593]
自己教師型学習フレームワークにおける視覚言語表現学習手法を提案する。
画像中の領域をソフトメイキングすることで、画像テキストマッチング(ITM)タスクの多様な特徴を生成する。
マルチモーダルエンコーダを用いて単語条件の視覚的注意を計算し,各単語に関連する領域を同定する。
論文 参考訳(メタデータ) (2023-04-03T05:07:49Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。