論文の概要: Teacher-Critical Training Strategies for Image Captioning
- arxiv url: http://arxiv.org/abs/2009.14405v1
- Date: Wed, 30 Sep 2020 03:15:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 00:11:19.750197
- Title: Teacher-Critical Training Strategies for Image Captioning
- Title(参考訳): イメージキャプションのための教師クリティカルトレーニング戦略
- Authors: Yiqing Huang, Jiansheng Chen
- Abstract要約: そこで本研究では,接頭辞と接頭辞とを橋渡しする教師モデルを提案する。
本稿では,字幕モデルの学習過程を改善するために,XEトレーニングとRLトレーニングの両方にTCTS(Teacher-Critical Training Strategies)を提案する。
- 参考スコア(独自算出の注目度): 12.245773188050618
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing image captioning models are usually trained by cross-entropy (XE)
loss and reinforcement learning (RL), which set ground-truth words as hard
targets and force the captioning model to learn from them. However, the widely
adopted training strategies suffer from misalignment in XE training and
inappropriate reward assignment in RL training. To tackle these problems, we
introduce a teacher model that serves as a bridge between the ground-truth
caption and the caption model by generating some easier-to-learn word proposals
as soft targets. The teacher model is constructed by incorporating the
ground-truth image attributes into the baseline caption model. To effectively
learn from the teacher model, we propose Teacher-Critical Training Strategies
(TCTS) for both XE and RL training to facilitate better learning processes for
the caption model. Experimental evaluations of several widely adopted caption
models on the benchmark MSCOCO dataset show the proposed TCTS comprehensively
enhances most evaluation metrics, especially the Bleu and Rouge-L scores, in
both training stages. TCTS is able to achieve to-date the best published single
model Bleu-4 and Rouge-L performances of 40.2% and 59.4% on the MSCOCO Karpathy
test split. Our codes and pre-trained models will be open-sourced.
- Abstract(参考訳): 既存の画像キャプションモデルは通常、クロスエントロピー(XE)損失と強化学習(RL)によって訓練される。
しかしながら、広く採用されているトレーニング戦略は、XEトレーニングにおける不正調整とRLトレーニングにおける不適切な報酬割り当てに悩まされている。
このような問題に対処するため,我々は,接頭辞と字幕モデルの橋渡しを行う教師モデルを提案する。
教師モデルは、ベースラインキャプションモデルに接地画像属性を組み込むことにより構成される。
教師モデルから効果的に学習するために,xe と rl の教育訓練における教師クリティカルトレーニング戦略 (tcts) を提案し,キャプションモデルの学習プロセスを改善する。
ベンチマークMSCOCOデータセットで広く採用されているいくつかのキャプションモデルの実験的評価により、提案したTCTSは、両方のトレーニング段階において、最も多くの評価指標、特にBleuとRoge-Lのスコアを包括的に強化することが示された。
TCTSはMSCOCOのカルパシーテストの分割でBleu-4とRoge-Lのパフォーマンスを40.2%と59.4%で達成した。
私たちのコードと事前訓練されたモデルはオープンソースになります。
関連論文リスト
- Text-to-Image Diffusion Models are Great Sketch-Photo Matchmakers [127.67444974452411]
本稿では,ゼロショットスケッチに基づく画像検索(ZS-SBIR)のためのテキスト・画像拡散モデルについて検討する。
スケッチと写真の間のギャップをシームレスに埋めるテキストと画像の拡散モデルの能力。
論文 参考訳(メタデータ) (2024-03-12T00:02:03Z) - UniBoost: Unsupervised Unimodal Pre-training for Boosting Zero-shot
Vision-Language Tasks [60.46473247205654]
大規模で教師なしのユニモーダルモデルを事前学習として使用することにより、画像テキストペアモデルのゼロショット性能を向上させることができる。
実験の結果,単調な事前学習は最先端のCLIPモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-06-07T18:26:22Z) - GPT4Image: Can Large Pre-trained Models Help Vision Models on Perception
Tasks? [51.22096780511165]
本稿では,大規模な事前学習モデルから抽出した知識を利用して,CNN や ViT などのモデルが拡張表現を学習するのを支援する新しい学習パラダイムを提案する。
我々は、詳細な記述を事前訓練されたエンコーダに入力し、画像の内容をエンコードするリッチなセマンティック情報でテキスト埋め込みを抽出する。
論文 参考訳(メタデータ) (2023-06-01T14:02:45Z) - Joint Adaptive Representations for Image-Language Learning [59.40890927221377]
画像言語学習のためのレシピを提案し、より大きくて高価なものよりも優れたモデルを作成し、しばしば桁違いに大きなデータセットで訓練する。
我々の重要な発見は、適応的かつ反復的にマルチモーダルな特徴を融合させる、コンパクトな視覚と言語表現の連成学習である。
たった4000万のトレーニング例と39のGFLOPで、私たちの軽量モデルは、2~20倍以上のFLOPの最先端モデルで、さらに大きなデータセットを使用して、1B近くのトレーニング例で何倍もパフォーマンスを上げています。
論文 参考訳(メタデータ) (2023-05-31T15:02:02Z) - Dense Depth Distillation with Out-of-Distribution Simulated Images [30.79756881887895]
単分子深度推定(MDE)のためのデータフリー知識蒸留(KD)について検討する。
KDは、訓練された教師モデルからそれを圧縮し、対象領域でのトレーニングデータを欠くことにより、現実世界の深度知覚タスクの軽量モデルを学ぶ。
提案手法は, トレーニング画像の1/6に留まらず, ベースラインKDのマージンが良好であり, 性能も若干向上していることを示す。
論文 参考訳(メタデータ) (2022-08-26T07:10:01Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - CaMEL: Mean Teacher Learning for Image Captioning [47.9708610052655]
画像キャプションのためのトランスフォーマーベースの新しいアーキテクチャであるCaMELを提案する。
提案手法は,訓練期間中に相互に学習する2つの相互接続型言語モデルの相互作用を利用する。
実験により,COCOデータセットと異なる視覚的特徴抽出器との併用により,提案手法の有効性を検証した。
論文 参考訳(メタデータ) (2022-02-21T19:04:46Z) - LAFITE: Towards Language-Free Training for Text-to-Image Generation [83.2935513540494]
テキストデータなしでテキストから画像への生成モデルをトレーニングするための最初の作業を提案する。
提案手法は,CLIPモデルのマルチモーダルなセマンティック空間の整合性を活用している。
我々は,標準的なテキスト・画像生成タスクにおいて,最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-27T01:54:45Z) - ImageBERT: Cross-modal Pre-training with Large-scale Weak-supervised
Image-Text Data [9.3935916515127]
画像-テキスト共同埋め込みのための視覚教師付き事前学習モデルである ImageBERT を導入する。
我々のモデルはTransformerベースのモデルであり、入力として異なるモダリティを取り、それらの関係をモデル化する。
論文 参考訳(メタデータ) (2020-01-22T11:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。