論文の概要: Self-Annotated Training for Controllable Image Captioning
- arxiv url: http://arxiv.org/abs/2110.08446v1
- Date: Sat, 16 Oct 2021 02:10:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 14:05:42.989373
- Title: Self-Annotated Training for Controllable Image Captioning
- Title(参考訳): 制御可能な画像キャプションのための自己注釈訓練
- Authors: Zhangzi Zhu, Tianlei Wang, and Hong Qu
- Abstract要約: Controllable Image Captioning (CIC)タスクは、指定された制御信号に条件付きキャプションを生成することを目的としている。
既存の強化訓練方法は構造関連CICモデルには適用できない。
文品質という新しい制御信号を導入する。
- 参考スコア(独自算出の注目度): 4.742874328556818
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Controllable Image Captioning (CIC) task aims to generate captions
conditioned on designated control signals. In this paper, we improve CIC from
two aspects: 1) Existing reinforcement training methods are not applicable to
structure-related CIC models due to the fact that the accuracy-based reward
focuses mainly on contents rather than semantic structures. The lack of
reinforcement training prevents the model from generating more accurate and
controllable sentences. To solve the problem above, we propose a novel
reinforcement training method for structure-related CIC models: Self-Annotated
Training (SAT), where a recursive sampling mechanism (RSM) is designed to force
the input control signal to match the actual output sentence. Extensive
experiments conducted on MSCOCO show that our SAT method improves C-Transformer
(XE) on CIDEr-D score from 118.6 to 130.1 in the length-control task and from
132.2 to 142.7 in the tense-control task, while maintaining more than 99$\%$
matching accuracy with the control signal. 2) We introduce a new control
signal: sentence quality. Equipped with it, CIC models are able to generate
captions of different quality levels as needed. Experiments show that without
additional information of ground truth captions, models controlled by the
highest level of sentence quality perform much better in accuracy than baseline
models.
- Abstract(参考訳): Controllable Image Captioning (CIC)タスクは、指定された制御信号に条件付きキャプションを生成することを目的としている。
本稿では,CICを2つの側面から改善する。
1) 既存の強化訓練手法は, 意味構造よりも内容に焦点を絞った精度に基づく報酬が主眼を置いているため, 構造関連CICモデルには適用できない。
強化訓練の欠如は、モデルがより正確で制御可能な文を生成するのを防ぐ。
本稿では,構造関連CICモデルに対する新たな強化トレーニング手法を提案する。 自己アノテーション学習(SAT)では,入力制御信号に実際の出力文を一致させるように再帰的なサンプリング機構(RSM)が設計されている。
MSCOCOで行った大規模な実験により、我々のSAT法は長さ制御タスクでは118.6から130.1、テンソル制御タスクでは132.2から142.7、CIDEr-Dスコアでは99$\%以上の精度を維持しながら、CIDEr-DのC-Transformer(XE)を改善した。
2) 文品質という新しい制御信号を導入する。
CICモデルは、必要に応じて異なる品質レベルのキャプションを生成することができる。
実験により、基底的真理のキャプションの追加情報がなければ、最高レベルの文品質で制御されたモデルは、ベースラインモデルよりもはるかに精度が向上することが示された。
関連論文リスト
- Boosting CLIP Adaptation for Image Quality Assessment via Meta-Prompt Learning and Gradient Regularization [55.09893295671917]
本稿では,Gdient-Regulated Meta-Prompt IQA Framework (GRMP-IQA)を紹介する。
GRMP-IQAはMeta-Prompt事前学習モジュールとQuality-Aware Gradient Regularizationの2つの主要なモジュールから構成されている。
5つの標準BIQAデータセットの実験は、限られたデータ設定下での最先端BIQA手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-09-09T07:26:21Z) - ECNet: Effective Controllable Text-to-Image Diffusion Models [31.21525123716149]
本稿では,条件付きテキスト・ツー・イメージモデルに対する2つの革新的なソリューションを提案する。
まず,テキスト入力を正確なアノテーション情報で符号化することで,条件の詳細性を高める空間ガイダンス(SGI)を提案する。
第二に、条件付き監督の制限を克服するため、拡散整合損失を導入する。
これにより、各ステップにおける潜時符号と入力信号との一貫性が促進され、出力の堅牢性と精度が向上する。
論文 参考訳(メタデータ) (2024-03-27T10:09:38Z) - CCM: Adding Conditional Controls to Text-to-Image Consistency Models [89.75377958996305]
本稿では,Consistency Models に ControlNet のような条件制御を追加するための代替戦略を検討する。
軽量アダプタは、一貫性トレーニングを通じて、複数の条件下で共同で最適化することができる。
これらの3つの解は, エッジ, 奥行き, 人間のポーズ, 低解像度画像, マスキング画像など, 様々な条件制御にまたがる。
論文 参考訳(メタデータ) (2023-12-12T04:16:03Z) - Self-distillation Regularized Connectionist Temporal Classification Loss
for Text Recognition: A Simple Yet Effective Approach [14.69981874614434]
損失関数の観点から、テキスト認識モデルの最適化方法を示す。
CTCに基づく手法は、性能と推論速度のバランスが良いため、実際は広く用いられているが、それでも精度は低下している。
本稿では,CTCモデルを用いた自己蒸留方式を提案し,この問題に対処する。
論文 参考訳(メタデータ) (2023-08-17T06:32:57Z) - uChecker: Masked Pretrained Language Models as Unsupervised Chinese
Spelling Checkers [23.343006562849126]
そこで我々はtextbfuChecker というフレームワークを提案し,教師なしのスペル検出と修正を行う。
BERTのようなマスキーク事前訓練言語モデルをバックボーンモデルとして導入する。
各種フレキシブルなMASKの操作に特化して,マスク付き言語モデルを微調整するためのコンフュージョンセット誘導マスキング戦略を提案する。
論文 参考訳(メタデータ) (2022-09-15T05:57:12Z) - Supervision-Guided Codebooks for Masked Prediction in Speech
Pre-training [102.14558233502514]
自己教師型学習(SSL)における事前学習のマズード予測は,音声認識における顕著な進歩をみせている。
本稿では,自動音声認識(ASR)の性能向上のための2つの教師付きコードブック生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-21T06:08:30Z) - Improving Image Captioning with Control Signal of Sentence Quality [6.000327333763521]
本稿では,字幕モデルに付加的な入力として,文質の新たな制御信号を提案する。
品質指向型自己注釈訓練(Q-SAT)による文質の制御信号に特化して設計された新しい強化訓練法を提案する。
論文 参考訳(メタデータ) (2022-06-07T11:38:03Z) - When Does Contrastive Learning Preserve Adversarial Robustness from
Pretraining to Finetuning? [99.4914671654374]
本稿では,新しい逆比較事前学習フレームワークAdvCLを提案する。
本稿では,AdvCLがモデル精度と微調整効率を損なうことなく,タスク間の堅牢性伝達性を向上できることを示す。
論文 参考訳(メタデータ) (2021-11-01T17:59:43Z) - Exploration and Exploitation: Two Ways to Improve Chinese Spelling
Correction Models [51.744357472072416]
本稿では,モデルの弱点を継続的に識別し,より価値の高いトレーニングインスタンスを生成する手法を提案する。
実験結果から, 事前学習戦略と組み合わさって, 複数のCSCモデルの一般化とロバスト性を改善することができることがわかった。
論文 参考訳(メタデータ) (2021-05-31T09:17:33Z) - Visual Alignment Constraint for Continuous Sign Language Recognition [74.26707067455837]
ビジョンベースの継続的署名言語認識は、画像シーケンスから未分割ジェスチャーを認識することを目的とする。
本研究は,最近のCTCに基づくCSLRにおける過剰適合問題を再考し,特徴抽出器の訓練不足によるものである。
視覚アライメント制約(vac)により、よりアライメントの監督により特徴抽出器を強化する。
論文 参考訳(メタデータ) (2021-04-06T07:24:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。