論文の概要: With a Little Help from your own Past: Prototypical Memory Networks for
Image Captioning
- arxiv url: http://arxiv.org/abs/2308.12383v1
- Date: Wed, 23 Aug 2023 18:53:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-25 16:25:15.753329
- Title: With a Little Help from your own Past: Prototypical Memory Networks for
Image Captioning
- Title(参考訳): 自分の過去の助けを借りて:画像キャプションのための典型的メモリネットワーク
- Authors: Manuele Barraco, Sara Sarto, Marcella Cornia, Lorenzo Baraldi, Rita
Cucchiara
- Abstract要約: 我々は、他のトレーニングサンプルを処理しながら得られたアクティベーションに注意を向けるネットワークを考案した。
私たちのメモリは、プロトタイプベクトルの定義を通じて過去のキーと値の分布をモデル化します。
本研究では,エンコーダ・デコーダ変換器の性能を3.7 CIDErポイント向上できることを示す。
- 参考スコア(独自算出の注目度): 47.96387857237473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image captioning, like many tasks involving vision and language, currently
relies on Transformer-based architectures for extracting the semantics in an
image and translating it into linguistically coherent descriptions. Although
successful, the attention operator only considers a weighted summation of
projections of the current input sample, therefore ignoring the relevant
semantic information which can come from the joint observation of other
samples. In this paper, we devise a network which can perform attention over
activations obtained while processing other training samples, through a
prototypical memory model. Our memory models the distribution of past keys and
values through the definition of prototype vectors which are both
discriminative and compact. Experimentally, we assess the performance of the
proposed model on the COCO dataset, in comparison with carefully designed
baselines and state-of-the-art approaches, and by investigating the role of
each of the proposed components. We demonstrate that our proposal can increase
the performance of an encoder-decoder Transformer by 3.7 CIDEr points both when
training in cross-entropy only and when fine-tuning with self-critical sequence
training. Source code and trained models are available at:
https://github.com/aimagelab/PMA-Net.
- Abstract(参考訳): 画像キャプションは、現在、視覚と言語を含む多くのタスクと同様に、画像中の意味を抽出し、言語的に一貫性のある記述に翻訳するトランスフォーマーベースのアーキテクチャに依存している。
注意演算子は成功したが、現在の入力サンプルの投影の重み付け和のみを考慮し、他のサンプルの合同観測から得られる関連する意味情報を無視する。
本稿では,他のトレーニングサンプルを処理しながら得られたアクティベーションに注意を払えるネットワークを,先代記憶モデルを用いて考案する。
我々のメモリは、識別的かつコンパクトなプロトタイプベクトルの定義を通じて過去のキーと値の分布をモデル化する。
実験により,COCOデータセット上で提案したモデルの性能を,慎重に設計されたベースラインや最先端アプローチと比較して評価し,各コンポーネントの役割について検討した。
本提案は,クロスエントロピーのみのトレーニング時と自己臨界シーケンストレーニング時の微調整時の両方において,エンコーダ・デコーダトランスフォーマの性能を3.7ciderポイント向上できることを実証する。
ソースコードとトレーニングされたモデルは、https://github.com/aimagelab/pma-netで入手できる。
関連論文リスト
- Unsupervised Prototype Adapter for Vision-Language Models [29.516767588241724]
我々はUnsupervised Prototype Adapter (UP-Adapter)と呼ばれる視覚言語モデルのための教師なし微調整アプローチを設計する。
具体的には、アノテーションのないターゲットデータセットに対して、CLIPのテキストイメージ整合機能を活用して、各クラスに対して最も確実なサンプルを自動的に選択する。
微調整後、プロトタイプモデル予測と元のCLIPの予測を残りの接続で組み合わせて下流認識タスクを実行する。
論文 参考訳(メタデータ) (2023-08-22T15:28:49Z) - Correlational Image Modeling for Self-Supervised Visual Pre-Training [81.82907503764775]
相関画像モデリング(Relational Image Modeling)は、自己監督型視覚前訓練における、新しくて驚くほど効果的なアプローチである。
3つの重要な設計は、相関画像モデリングを非自明で有意義な自己監督タスクとして実現している。
論文 参考訳(メタデータ) (2023-03-22T15:48:23Z) - ST-KeyS: Self-Supervised Transformer for Keyword Spotting in Historical
Handwritten Documents [3.9688530261646653]
歴史的文書におけるキーワードスポッティング(KWS)は、デジタル化されたコレクションを最初に探究するための重要なツールである。
マスク・アンド・予測パラダイムに基づく視覚変換器をベースとしたマスク付き自動エンコーダモデルST-KeySを提案する。
微調整段階において、事前訓練されたエンコーダは、入力画像から特徴埋め込みを改善するために微調整されたサイムズニューラルネットワークモデルに統合される。
論文 参考訳(メタデータ) (2023-03-06T13:39:41Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - Rethinking Semantic Segmentation: A Prototype View [126.59244185849838]
学習不可能なプロトタイプをベースとした非パラメトリックセマンティックセマンティックセマンティクスモデルを提案する。
我々のフレームワークは、いくつかのデータセットに対して魅力的な結果をもたらす。
この作業が、現在のデファクトセマンティックセグメンテーションモデル設計を再考することを期待しています。
論文 参考訳(メタデータ) (2022-03-28T21:15:32Z) - Adaptive Prototypical Networks with Label Words and Joint Representation
Learning for Few-Shot Relation Classification [17.237331828747006]
本研究は,少ショット関係分類(FSRC)に焦点を当てる。
クラスプロトタイプの表現にラベル単語を追加するための適応的混合機構を提案する。
FewRelでは、異なる数ショット(FS)設定で実験が行われた。
論文 参考訳(メタデータ) (2021-01-10T11:25:42Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - Autoencoding Variational Autoencoder [56.05008520271406]
我々は,この行動が学習表現に与える影響と,自己整合性の概念を導入することでそれを修正する結果について検討する。
自己整合性アプローチで訓練されたエンコーダは、敵攻撃による入力の摂動に対して頑健な(無神経な)表現につながることを示す。
論文 参考訳(メタデータ) (2020-12-07T14:16:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。