論文の概要: B-SCST: Bayesian Self-Critical Sequence Training for Image Captioning
- arxiv url: http://arxiv.org/abs/2004.02435v2
- Date: Sun, 28 Jun 2020 22:37:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 05:44:13.270985
- Title: B-SCST: Bayesian Self-Critical Sequence Training for Image Captioning
- Title(参考訳): B-SCST:画像キャプションのためのベイズ的自己批判シーケンストレーニング
- Authors: Shashank Bujimalla, Mahesh Subedar, Omesh Tickoo
- Abstract要約: 本稿では,画像キャプションモデルに対するポリシー段階に基づく強化学習手法のベイズ版を提案する。
ベイズ推論を取り入れた画像キャプションモデルに対する、よく知られた自己批判シーケンストレーニング(SCST)アプローチを拡張した。
B-SCST は Flickr30k,MS COCO,VizWiz 画像キャプションデータセットの CIDEr-D スコアを SCST アプローチと比較して改善することを示した。
- 参考スコア(独自算出の注目度): 8.7660229706359
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bayesian deep neural networks (DNNs) can provide a mathematically grounded
framework to quantify uncertainty in predictions from image captioning models.
We propose a Bayesian variant of policy-gradient based reinforcement learning
training technique for image captioning models to directly optimize
non-differentiable image captioning quality metrics such as CIDEr-D. We extend
the well-known Self-Critical Sequence Training (SCST) approach for image
captioning models by incorporating Bayesian inference, and refer to it as
B-SCST. The "baseline" for the policy-gradients in B-SCST is generated by
averaging predictive quality metrics (CIDEr-D) of the captions drawn from the
distribution obtained using a Bayesian DNN model. We infer this predictive
distribution using Monte Carlo (MC) dropout approximate variational inference.
We show that B-SCST improves CIDEr-D scores on Flickr30k, MS COCO and VizWiz
image captioning datasets, compared to the SCST approach. We also provide a
study of uncertainty quantification for the predicted captions, and demonstrate
that it correlates well with the CIDEr-D scores. To our knowledge, this is the
first such analysis, and it can improve the interpretability of image
captioning model outputs, which is critical for practical applications.
- Abstract(参考訳): ベイジアンディープニューラルネットワーク(DNN)は、画像キャプションモデルから予測の不確かさを定量化する数学的基盤を持つフレームワークを提供する。
本稿では,CIDEr-D などの画像キャプション品質指標を直接最適化するために,画像キャプションモデルに対するポリシー段階に基づく強化学習手法のベイズ変種を提案する。
ベイズ推論を取り入れた画像キャプションモデルに対する、よく知られた自己批判シーケンストレーニング(SCST)アプローチを拡張し、それをB-SCSTと呼ぶ。
ベイズDNNモデルを用いて得られた分布から抽出したキャプションの予測品質指標(CIDEr-D)を平均化することにより、B-SCSTにおけるポリシー勾配のベースラインを生成する。
この予測分布をモンテカルロ(mc)ドロップアウト近似変分推論を用いて推定する。
B-SCST は Flickr30k,MS COCO,VizWiz 画像キャプションデータセットの CIDEr-D スコアを SCST アプローチと比較して改善することを示した。
また,予測キャプションの不確かさの定量化についても検討し,CIDEr-Dスコアとよく相関していることを示す。
我々の知る限り、これが最初の解析であり、実用的な応用に欠かせない画像キャプションモデル出力の解釈性を向上させることができる。
関連論文リスト
- Zero-Shot Video Semantic Segmentation based on Pre-Trained Diffusion Models [96.97910688908956]
本稿では,事前学習した拡散モデルに基づくビデオセマンティック(VSS)の最初のゼロショット手法を提案する。
予め訓練された画像とビデオ拡散モデルに基づくVSSに適したフレームワークを提案する。
実験により,提案手法は既存のゼロショット画像セマンティックセグメンテーション手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-05-27T08:39:38Z) - Diffusion-RSCC: Diffusion Probabilistic Model for Change Captioning in Remote Sensing Images [14.236580915897585]
RSICCは、両時間的リモートセンシング画像ペア間の意味的変化を記述するために、人間のような言語を生成することを目的としている。
拡散モデルの顕著な生成力に着想を得て, RSICCの確率的拡散モデルを提案する。
学習過程において,マルコフ連鎖の下で実字幕分布から標準ガウス分布への分布を学習するために,クロスモーダル特徴を条件とした雑音予測器を構築する。
テスト段階では、よく訓練されたノイズ予測器が分布の平均値を推定し、段階的に変化キャプションを生成する。
論文 参考訳(メタデータ) (2024-05-21T15:44:31Z) - Semantic Approach to Quantifying the Consistency of Diffusion Model Image Generation [0.40792653193642503]
拡散モデルにおける画像生成の再現性、あるいは一貫性の解釈可能な定量的スコアの必要性を同定する。
セマンティック・コンセンサス・スコアとしてペア平均CLIPスコアを用いるセマンティック・アプローチを提案する。
論文 参考訳(メタデータ) (2024-04-12T20:16:03Z) - Stochastic Segmentation with Conditional Categorical Diffusion Models [3.8168879948759953]
Denoising Diffusion Probabilistic Models に基づくセマンティックセグメンテーションのための条件カテゴリー拡散モデル(CCDM)を提案する。
以上の結果から,CCDMはLIDC上での最先端性能を実現し,従来のセグメンテーションデータセットであるCityscapesのベースラインよりも優れていた。
論文 参考訳(メタデータ) (2023-03-15T19:16:47Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - Injecting Semantic Concepts into End-to-End Image Captioning [61.41154537334627]
本稿では、地域特徴を抽出することなくグリッド表現を使用する、純粋視覚変換器を用いた画像キャプションモデルViTCAPを提案する。
性能向上のために,意味論的概念を予測し,それをエンドツーエンドのキャプションに組み込む新しいコンセプトトークンネットワーク(CTN)を導入する。
特に、CTNは視覚変換器に基づいて構築され、分類タスクを通じて概念トークンを予測するように設計されている。
論文 参考訳(メタデータ) (2021-12-09T22:05:05Z) - Explaining and Improving Model Behavior with k Nearest Neighbor
Representations [107.24850861390196]
モデルの予測に責任のあるトレーニング例を特定するために, k 近傍表現を提案する。
我々は,kNN表現が学習した素因関係を明らかにするのに有効であることを示す。
以上の結果から,kNN手法により,直交モデルが逆入力に対してより堅牢であることが示唆された。
論文 参考訳(メタデータ) (2020-10-18T16:55:25Z) - Explanation-Guided Training for Cross-Domain Few-Shot Classification [96.12873073444091]
クロスドメイン・ショット分類タスク(CD-FSC)は、データセットで表されるドメインをまたいで一般化する要件と、少数ショット分類を組み合わせたものである。
既存のFSCモデルに対する新しいトレーニング手法を提案する。
説明誘導学習はモデル一般化を効果的に改善することを示す。
論文 参考訳(メタデータ) (2020-07-17T07:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。