Fugu-MT 論文翻訳(概要): Teacher-Critical Training Strategies for Image Captioning

論文の概要: Teacher-Critical Training Strategies for Image Captioning

arxiv url: http://arxiv.org/abs/2009.14405v1
Date: Wed, 30 Sep 2020 03:15:12 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-13 00:11:19.750197
Title: Teacher-Critical Training Strategies for Image Captioning
Title（参考訳）: イメージキャプションのための教師クリティカルトレーニング戦略
Authors: Yiqing Huang, Jiansheng Chen
Abstract要約: そこで本研究では,接頭辞と接頭辞とを橋渡しする教師モデルを提案する。本稿では,字幕モデルの学習過程を改善するために,XEトレーニングとRLトレーニングの両方にTCTS(Teacher-Critical Training Strategies)を提案する。
参考スコア（独自算出の注目度）: 12.245773188050618
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Existing image captioning models are usually trained by cross-entropy (XE) loss and reinforcement learning (RL), which set ground-truth words as hard targets and force the captioning model to learn from them. However, the widely adopted training strategies suffer from misalignment in XE training and inappropriate reward assignment in RL training. To tackle these problems, we introduce a teacher model that serves as a bridge between the ground-truth caption and the caption model by generating some easier-to-learn word proposals as soft targets. The teacher model is constructed by incorporating the ground-truth image attributes into the baseline caption model. To effectively learn from the teacher model, we propose Teacher-Critical Training Strategies (TCTS) for both XE and RL training to facilitate better learning processes for the caption model. Experimental evaluations of several widely adopted caption models on the benchmark MSCOCO dataset show the proposed TCTS comprehensively enhances most evaluation metrics, especially the Bleu and Rouge-L scores, in both training stages. TCTS is able to achieve to-date the best published single model Bleu-4 and Rouge-L performances of 40.2% and 59.4% on the MSCOCO Karpathy test split. Our codes and pre-trained models will be open-sourced.
Abstract（参考訳）: 既存の画像キャプションモデルは通常、クロスエントロピー(XE)損失と強化学習(RL)によって訓練される。しかしながら、広く採用されているトレーニング戦略は、XEトレーニングにおける不正調整とRLトレーニングにおける不適切な報酬割り当てに悩まされている。このような問題に対処するため,我々は,接頭辞と字幕モデルの橋渡しを行う教師モデルを提案する。教師モデルは、ベースラインキャプションモデルに接地画像属性を組み込むことにより構成される。教師モデルから効果的に学習するために,xe と rl の教育訓練における教師クリティカルトレーニング戦略 (tcts) を提案し,キャプションモデルの学習プロセスを改善する。ベンチマークMSCOCOデータセットで広く採用されているいくつかのキャプションモデルの実験的評価により、提案したTCTSは、両方のトレーニング段階において、最も多くの評価指標、特にBleuとRoge-Lのスコアを包括的に強化することが示された。 TCTSはMSCOCOのカルパシーテストの分割でBleu-4とRoge-Lのパフォーマンスを40.2%と59.4%で達成した。私たちのコードと事前訓練されたモデルはオープンソースになります。

関連論文リスト

Efficient Face Image Quality Assessment via Self-training and Knowledge Distillation [51.43664253596246]
顔画像品質評価(FIQA)は、様々な顔関連アプリケーションに不可欠である。我々は,現実のアプリケーションに容易に展開可能な計算効率の良いFIQA手法の開発を目指している。
論文参考訳（メタデータ） (2025-07-21T15:17:01Z)
STCL:Curriculum learning Strategies for deep learning image steganography models [8.251354931895667]
本稿では、ディープラーニング画像ステガノグラフィーモデルのためのステガノグラフィ学習訓練戦略(STCL)を提案する。この戦略は、教師モデルに基づく難易度評価戦略と膝点に基づく訓練計画戦略とを含む。 ALASKA2,VOC2012,ImageNetの3つの大規模公開データセットに対する実験結果から,提案手法がモデル性能を向上させることを示す。
論文参考訳（メタデータ） (2025-04-24T14:34:41Z)
A Chain-of-Thought Subspace Meta-Learning for Few-shot Image Captioning with Large Vision and Language Models [17.144311122664508]
大規模データに事前訓練された大規模ビジョンと言語モデルは、視覚的および言語的先行性を符号化する。画像記述の仕方を改善するための多段階画像キャプション手法として,チェーン・オブ・シント(CoT)メタラーニング手法を提案する。
論文参考訳（メタデータ） (2025-02-19T18:35:43Z)
Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。 OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文参考訳（メタデータ） (2024-09-19T07:05:26Z)
ComKD-CLIP: Comprehensive Knowledge Distillation for Contrastive Language-Image Pre-traning Model [49.587821411012705]
コントラスト言語画像前処理モデルのための包括的知識蒸留法ComKD-CLIPを提案する。大規模な教師CLIPモデルからより小さな学生モデルに知識を抽出し、パラメータを著しく減らして同等のパフォーマンスを確保する。 EduAttentionは教師モデルで抽出したテキスト特徴と学生モデルで抽出した画像特徴との相互関係を探索する。
論文参考訳（メタデータ） (2024-08-08T01:12:21Z)
CLEFT: Language-Image Contrastive Learning with Efficient Large Language Model and Prompt Fine-Tuning [4.004641316826348]
効率的な大言語モデルとファインチューニング(CLEFT)を併用した新しい言語画像コントラスト学習手法を提案する。複数の胸部X線およびマンモグラフィーデータセットの最先端性能を示す。提案手法は,既存のBERTエンコーダと比較して,トレーニング可能なモデル全体のサイズを39%削減し,トレーニング可能な言語モデルを4%に削減する。
論文参考訳（メタデータ） (2024-07-30T17:57:32Z)
Compact Language Models via Pruning and Knowledge Distillation [61.56557874432008]
ミニトロンモデルでは、スクラッチからのトレーニングに比べてMMLUスコアが最大16%改善している。すでにトレーニング済みの15Bモデルから8Bと4Bモデルを抽出するには、スクラッチからトレーニングするよりも、モデル毎のトレーニングトークンを最大40倍少なくする必要があります。
論文参考訳（メタデータ） (2024-07-19T21:47:57Z)
UniBoost: Unsupervised Unimodal Pre-training for Boosting Zero-shot Vision-Language Tasks [60.46473247205654]
大規模で教師なしのユニモーダルモデルを事前学習として使用することにより、画像テキストペアモデルのゼロショット性能を向上させることができる。実験の結果,単調な事前学習は最先端のCLIPモデルよりも優れていた。
論文参考訳（メタデータ） (2023-06-07T18:26:22Z)
Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文参考訳（メタデータ） (2022-05-26T03:13:43Z)
LAFITE: Towards Language-Free Training for Text-to-Image Generation [83.2935513540494]
テキストデータなしでテキストから画像への生成モデルをトレーニングするための最初の作業を提案する。提案手法は,CLIPモデルのマルチモーダルなセマンティック空間の整合性を活用している。我々は,標準的なテキスト・画像生成タスクにおいて,最先端の結果を得る。
論文参考訳（メタデータ） (2021-11-27T01:54:45Z)
ImageBERT: Cross-modal Pre-training with Large-scale Weak-supervised Image-Text Data [9.3935916515127]
画像-テキスト共同埋め込みのための視覚教師付き事前学習モデルである ImageBERT を導入する。我々のモデルはTransformerベースのモデルであり、入力として異なるモダリティを取り、それらの関係をモデル化する。
論文参考訳（メタデータ） (2020-01-22T11:35:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。