論文の概要: Teacher-Critical Training Strategies for Image Captioning
- arxiv url: http://arxiv.org/abs/2009.14405v1
- Date: Wed, 30 Sep 2020 03:15:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 00:11:19.750197
- Title: Teacher-Critical Training Strategies for Image Captioning
- Title(参考訳): イメージキャプションのための教師クリティカルトレーニング戦略
- Authors: Yiqing Huang, Jiansheng Chen
- Abstract要約: そこで本研究では,接頭辞と接頭辞とを橋渡しする教師モデルを提案する。
本稿では,字幕モデルの学習過程を改善するために,XEトレーニングとRLトレーニングの両方にTCTS(Teacher-Critical Training Strategies)を提案する。
- 参考スコア(独自算出の注目度): 12.245773188050618
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing image captioning models are usually trained by cross-entropy (XE)
loss and reinforcement learning (RL), which set ground-truth words as hard
targets and force the captioning model to learn from them. However, the widely
adopted training strategies suffer from misalignment in XE training and
inappropriate reward assignment in RL training. To tackle these problems, we
introduce a teacher model that serves as a bridge between the ground-truth
caption and the caption model by generating some easier-to-learn word proposals
as soft targets. The teacher model is constructed by incorporating the
ground-truth image attributes into the baseline caption model. To effectively
learn from the teacher model, we propose Teacher-Critical Training Strategies
(TCTS) for both XE and RL training to facilitate better learning processes for
the caption model. Experimental evaluations of several widely adopted caption
models on the benchmark MSCOCO dataset show the proposed TCTS comprehensively
enhances most evaluation metrics, especially the Bleu and Rouge-L scores, in
both training stages. TCTS is able to achieve to-date the best published single
model Bleu-4 and Rouge-L performances of 40.2% and 59.4% on the MSCOCO Karpathy
test split. Our codes and pre-trained models will be open-sourced.
- Abstract(参考訳): 既存の画像キャプションモデルは通常、クロスエントロピー(XE)損失と強化学習(RL)によって訓練される。
しかしながら、広く採用されているトレーニング戦略は、XEトレーニングにおける不正調整とRLトレーニングにおける不適切な報酬割り当てに悩まされている。
このような問題に対処するため,我々は,接頭辞と字幕モデルの橋渡しを行う教師モデルを提案する。
教師モデルは、ベースラインキャプションモデルに接地画像属性を組み込むことにより構成される。
教師モデルから効果的に学習するために,xe と rl の教育訓練における教師クリティカルトレーニング戦略 (tcts) を提案し,キャプションモデルの学習プロセスを改善する。
ベンチマークMSCOCOデータセットで広く採用されているいくつかのキャプションモデルの実験的評価により、提案したTCTSは、両方のトレーニング段階において、最も多くの評価指標、特にBleuとRoge-Lのスコアを包括的に強化することが示された。
TCTSはMSCOCOのカルパシーテストの分割でBleu-4とRoge-Lのパフォーマンスを40.2%と59.4%で達成した。
私たちのコードと事前訓練されたモデルはオープンソースになります。
関連論文リスト
- Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - ComKD-CLIP: Comprehensive Knowledge Distillation for Contrastive Language-Image Pre-traning Model [49.587821411012705]
コントラスト言語画像前処理モデルのための包括的知識蒸留法ComKD-CLIPを提案する。
大規模な教師CLIPモデルからより小さな学生モデルに知識を抽出し、パラメータを著しく減らして同等のパフォーマンスを確保する。
EduAttentionは教師モデルで抽出したテキスト特徴と学生モデルで抽出した画像特徴との相互関係を探索する。
論文 参考訳(メタデータ) (2024-08-08T01:12:21Z) - CLEFT: Language-Image Contrastive Learning with Efficient Large Language Model and Prompt Fine-Tuning [4.004641316826348]
効率的な大言語モデルとファインチューニング(CLEFT)を併用した新しい言語画像コントラスト学習手法を提案する。
複数の胸部X線およびマンモグラフィーデータセットの最先端性能を示す。
提案手法は,既存のBERTエンコーダと比較して,トレーニング可能なモデル全体のサイズを39%削減し,トレーニング可能な言語モデルを4%に削減する。
論文 参考訳(メタデータ) (2024-07-30T17:57:32Z) - Compact Language Models via Pruning and Knowledge Distillation [61.56557874432008]
ミニトロンモデルでは、スクラッチからのトレーニングに比べてMMLUスコアが最大16%改善している。
すでにトレーニング済みの15Bモデルから8Bと4Bモデルを抽出するには、スクラッチからトレーニングするよりも、モデル毎のトレーニングトークンを最大40倍少なくする必要があります。
論文 参考訳(メタデータ) (2024-07-19T21:47:57Z) - UniBoost: Unsupervised Unimodal Pre-training for Boosting Zero-shot
Vision-Language Tasks [60.46473247205654]
大規模で教師なしのユニモーダルモデルを事前学習として使用することにより、画像テキストペアモデルのゼロショット性能を向上させることができる。
実験の結果,単調な事前学習は最先端のCLIPモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-06-07T18:26:22Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - LAFITE: Towards Language-Free Training for Text-to-Image Generation [83.2935513540494]
テキストデータなしでテキストから画像への生成モデルをトレーニングするための最初の作業を提案する。
提案手法は,CLIPモデルのマルチモーダルなセマンティック空間の整合性を活用している。
我々は,標準的なテキスト・画像生成タスクにおいて,最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-27T01:54:45Z) - ImageBERT: Cross-modal Pre-training with Large-scale Weak-supervised
Image-Text Data [9.3935916515127]
画像-テキスト共同埋め込みのための視覚教師付き事前学習モデルである ImageBERT を導入する。
我々のモデルはTransformerベースのモデルであり、入力として異なるモダリティを取り、それらの関係をモデル化する。
論文 参考訳(メタデータ) (2020-01-22T11:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。