論文の概要: Guiding Image Captioning Models Toward More Specific Captions
- arxiv url: http://arxiv.org/abs/2307.16686v1
- Date: Mon, 31 Jul 2023 14:00:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 14:10:40.671216
- Title: Guiding Image Captioning Models Toward More Specific Captions
- Title(参考訳): 画像キャプションモデルをより具体的なキャプションに導く
- Authors: Simon Kornblith, Lala Li, Zirui Wang, Thao Nguyen
- Abstract要約: トレーニングプロセスに最小限の変更を加えることで,より具体的なキャプションを生成することが可能であることを示す。
本研究では, 自動回帰キャプションモデルに対して, キャプション上の条件分布と非条件分布の両方を微調整することで, 分類器レスガイダンスを実装した。
- 参考スコア(独自算出の注目度): 32.36062034676917
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image captioning is conventionally formulated as the task of generating
captions for images that match the distribution of reference image-caption
pairs. However, reference captions in standard captioning datasets are short
and may not uniquely identify the images they describe. These problems are
further exacerbated when models are trained directly on image-alt text pairs
collected from the internet. In this work, we show that it is possible to
generate more specific captions with minimal changes to the training process.
We implement classifier-free guidance for an autoregressive captioning model by
fine-tuning it to estimate both conditional and unconditional distributions
over captions. The guidance scale applied at decoding controls a trade-off
between maximizing $p(\mathrm{caption}|\mathrm{image})$ and
$p(\mathrm{image}|\mathrm{caption})$. Compared to standard greedy decoding,
decoding with a guidance scale of 2 substantially improves reference-free
metrics such as CLIPScore (0.808 vs. 0.775) and caption$\to$image retrieval
performance in the CLIP embedding space (recall@1 44.6% vs. 26.5%), but worsens
standard reference-based captioning metrics (e.g., CIDEr 78.6 vs 126.1). We
further explore the use of language models to guide the decoding process,
obtaining small improvements over the Pareto frontier of reference-free vs.
reference-based captioning metrics that arises from classifier-free guidance,
and substantially improving the quality of captions generated from a model
trained only on minimally curated web data.
- Abstract(参考訳): 従来の画像キャプションは、参照画像キャプションペアの分布に一致する画像のキャプションを生成するタスクとして定式化されている。
しかし、標準キャプションデータセットの参照キャプションは短く、記述した画像を一意に識別することができない。
これらの問題は、モデルがインターネットから収集された画像とテキストのペアで直接訓練されるとさらに悪化する。
本研究では,訓練プロセスに最小限の変更を加えることで,より具体的な字幕を生成できることを示す。
自動回帰キャプションモデルに対して,キャプション上の条件分布と無条件分布の両方を推定するために微調整を行うことにより,分類子なしのキャプションモデルの指導を行う。
デコードに適用されるガイダンススケールは、$p(\mathrm{caption}|\mathrm{image})$と$p(\mathrm{image}|\mathrm{caption})$のトレードオフを制御する。
標準のgreedyデコードと比較すると、2のガイダンススケールを持つデコードでは、CLIPScore(0.808 vs. 0.775)やCLIP埋め込み空間における$\to$image検索性能(recall@1 44.6% vs. 26.5%)のような参照なしのメトリクスが大幅に向上するが、標準の参照ベースのキャプションメトリクス(例えば、CIDEr 78.6 vs 126.1)が悪化する。
我々はさらに,デコーディングプロセスを導くための言語モデルの使用,参照フリーと参照ベースのキャプション指標のparetoフロンティアに対する小さな改善,そして最小キュレートされたwebデータでのみトレーニングされたモデルから生成したキャプションの品質向上について検討する。
関連論文リスト
- Fluent and Accurate Image Captioning with a Self-Trained Reward Model [47.213906345208315]
本稿では,自己生成陰性に基づく学習可能な報酬モデルに基づくキャプション手法であるSelf-Capを提案する。
我々の識別器は、字幕の正しさを促進するために訓練された微調整されたコントラスト画像テキストモデルである。
論文 参考訳(メタデータ) (2024-08-29T18:00:03Z) - A Picture is Worth a Thousand Words: Principled Recaptioning Improves
Image Generation [9.552642210681489]
コーパスを特別な自動キャプションモデルで再現し、再カプセル化データセット上でテキスト・ツー・イメージモデルを訓練することにより、モデルがボード全体に大きなメリットをもたらすことを示す。
我々は、コーパスを緩和する様々な方法を分析し、この手法がRECAPと呼ばれ、どちらも列車の干渉の相違を低減し、例ごとにより多くの情報を提供するという証拠を提供する。
論文 参考訳(メタデータ) (2023-10-25T14:10:08Z) - Improving Image Captioning Descriptiveness by Ranking and LLM-based
Fusion [17.99150939602917]
State-of-The-Art (SoTA)イメージキャプションモデルは、トレーニングのためにMicrosoft COCO(MS-COCO)データセットに依存することが多い。
本稿では,異なるSoTAモデルから生成されたキャプションを効果的に融合させる方法を示すことによって,従来の課題に対処する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-20T15:13:02Z) - Cross-Domain Image Captioning with Discriminative Finetuning [20.585138136033905]
自己監督的な識別的コミュニケーションの目的を持ったアウト・オブ・ザ・ボックスのニューラルキャプタを微調整することは、プレーンで視覚的に記述された言語を回復するのに役立ちます。
画像識別タスクを担っているヒトのアノテータに対して,Vanilla ClipCapのキャプションや接地木キャプションよりも,識別的に微調整されたキャプションの方が有用であることを示す。
論文 参考訳(メタデータ) (2023-04-04T09:33:16Z) - Noise-aware Learning from Web-crawled Image-Text Data for Image
Captioning [6.101765622702223]
ノイズ対応キャプション(NoC)フレームワークは、ノイズの影響を受けずに、Webクローリングされたデータ全体から豊富な知識を学習する。
これは、画像テキストペアのアライメントレベルを制御信号として学習したアライメントレベル制御可能なキャプタによって実現される。
ノイズ処理におけるフレームワークの有効性を詳細に分析した。
論文 参考訳(メタデータ) (2022-12-27T17:33:40Z) - Is a Caption Worth a Thousand Images? A Controlled Study for
Representation Learning [88.5382122413913]
本研究では,従来の画像のみの手法よりも伝達可能な表現を持つ視覚モデルが得られるかを検討した。
画像のみの手法は、より多くの画像データでトレーニングされた場合でも、CLIPの転送性能と一致しないことがわかった。
この結果から,CLIPが既存の事前学習データセットに存在する言語情報を活用できるように,シンプルな処方薬を考案した。
論文 参考訳(メタデータ) (2022-07-15T17:50:51Z) - Fine-grained Image Captioning with CLIP Reward [104.71533106301598]
ウェブから大量の画像テキストペアをトレーニングしたマルチモーダルエンコーダであるCLIPを用いて、マルチモーダル類似性を計算し、報酬関数として利用する。
また、追加のテキストアノテーションを必要としない文法を改善するために、CLIPテキストエンコーダの簡単な微調整戦略を提案する。
テキスト・ツー・イメージ検索とFineCapEvalの実験において、提案したCLIP誘導モデルは、CIDEr最適化モデルよりも顕著なキャプションを生成する。
論文 参考訳(メタデータ) (2022-05-26T02:46:09Z) - Contrastive Semantic Similarity Learning for Image Captioning Evaluation
with Intrinsic Auto-encoder [52.42057181754076]
自動エンコーダ機構とコントラスト表現学習の進歩により,画像キャプションのための学習基準を提案する。
文レベルの表現を学習するための3つのプログレッシブモデル構造を開発する。
実験結果から,提案手法は他の指標から得られるスコアとよく一致できることが示唆された。
論文 参考訳(メタデータ) (2021-06-29T12:27:05Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z) - Length-Controllable Image Captioning [67.2079793803317]
簡単な長さレベルの埋め込みを用いて,その能力を実現することを提案する。
自己回帰的な性質のため、既存のモデルの計算複雑性は、生成されたキャプションの長さが大きくなるにつれて線形的に増加する。
さらに,非自己回帰的画像キャプション手法を考案し,キャプションを時間的無関係な複雑さで生成する。
論文 参考訳(メタデータ) (2020-07-19T03:40:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。