論文の概要: Learning Descriptive Image Captioning via Semipermeable Maximum
Likelihood Estimation
- arxiv url: http://arxiv.org/abs/2306.13460v2
- Date: Tue, 27 Jun 2023 11:38:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-28 10:16:39.328371
- Title: Learning Descriptive Image Captioning via Semipermeable Maximum
Likelihood Estimation
- Title(参考訳): 半透過的最大度推定による学習記述型画像キャプション
- Authors: Zihao Yue, Anwen Hu, Liang Zhang, Qin Jin
- Abstract要約: トレーニング対象として最大最大推定を行うと、その予測がラベルと一致しないときにキャプションモデルがペナル化される。
本研究では,精度の最適化をブロックしながらリッチネスの最適化を可能にするSemipermeable MaxImum Likelihood Estimation (SMILE)を提案する。
- 参考スコア(独自算出の注目度): 48.6672149026601
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image captioning aims to describe visual content in natural language. As 'a
picture is worth a thousand words', there could be various correct descriptions
for an image. However, with maximum likelihood estimation as the training
objective, the captioning model is penalized whenever its prediction mismatches
with the label. For instance, when the model predicts a word expressing richer
semantics than the label, it will be penalized and optimized to prefer more
concise expressions, referred to as conciseness optimization. In contrast,
predictions that are more concise than labels lead to richness optimization.
Such conflicting optimization directions could eventually result in the model
generating general descriptions. In this work, we introduce Semipermeable
MaxImum Likelihood Estimation (SMILE), which allows richness optimization while
blocking conciseness optimization, thus encouraging the model to generate
longer captions with more details. Extensive experiments on two mainstream
image captioning datasets MSCOCO and Flickr30K demonstrate that SMILE
significantly enhances the descriptiveness of generated captions. We further
provide in-depth investigations to facilitate a better understanding of how
SMILE works.
- Abstract(参考訳): 画像キャプションは自然言語で視覚的なコンテンツを記述することを目的としている。
「絵は千語の価値ある」ため、画像には様々な正しい記述がある可能性がある。
しかし、最大確率推定を訓練対象とし、その予測がラベルとミスマッチするたびに、キャプションモデルにペナルティが課される。
例えば、ラベルよりもリッチなセマンティクスを表現する単語を予測する場合、簡潔さ最適化と呼ばれるより簡潔な表現を好むようにペナル化され最適化される。
対照的に、ラベルよりも簡潔な予測はリッチネス最適化につながる。
このような矛盾する最適化方向は、最終的にモデルが一般的な記述を生成することになる。
本研究では,簡潔さの最適化をブロックしながらリッチネスの最適化を可能にする半透過最大推定法(smile)を導入することで,より詳細なキャプションを生成することができる。
MSCOCOとFlickr30Kの2つの主流画像キャプションデータセットに対する大規模な実験により、SMILEは生成されたキャプションの記述性を著しく向上することが示された。
SMILEの動作をより深く理解するための詳細な調査も行っている。
関連論文リスト
- DreamLIP: Language-Image Pre-training with Long Captions [42.4063624671045]
MLLM(Multi-modality Large Language Model)を用いた詳細な記述を伴う30M画像の再キャプチャ
そこで本研究では,テキストラベルからサブキャプションを動的にサンプリングし,複数の正のペアを構築することを提案する。
画像テキスト検索とセマンティックセグメンテーションのタスクでは,30万のイメージテキストペアでトレーニングしたモデルが,4億のペアでトレーニングしたCLIPよりも同等あるいはそれ以上のパフォーマンスを実現している点が注目に値する。
論文 参考訳(メタデータ) (2024-03-25T17:59:42Z) - FuseCap: Leveraging Large Language Models for Enriched Fused Image
Captions [11.274127953112574]
本稿では,「凍った」視覚専門家を用いて,既存のキャプションを視覚的詳細で拡張するための自動アプローチを提案する。
提案手法であるFuseCapは,そのような視覚専門家の出力を,大規模言語モデルを用いて原文のキャプションと融合する。
私たちはこの大規模な画像キャプチャーペアのデータセットをコミュニティ向けにリリースします。
論文 参考訳(メタデータ) (2023-05-28T13:16:03Z) - Simple Token-Level Confidence Improves Caption Correctness [117.33497608933169]
Token-Level Confidence(TLC)は、字幕の正確さを評価するシンプルな方法であるが、驚くほど効果的である。
画像キャプションに関する視覚言語モデルを微調整し、画像と提案されたキャプションをモデルに入力し、単語やシーケンスに対するトークンの信頼度を集計し、画像キャプションの一貫性を推定する。
論文 参考訳(メタデータ) (2023-05-11T17:58:17Z) - Paraphrasing Is All You Need for Novel Object Captioning [126.66301869607656]
新たな物体キャプション (NOC) は, 訓練中に真実のキャプションを観察することなく, 対象を含む画像を記述することを目的としている。
本稿では,NOC の2段階学習フレームワークである Paraphrasing-to-Captioning (P2C) について述べる。
論文 参考訳(メタデータ) (2022-09-25T22:56:04Z) - Fine-grained Image Captioning with CLIP Reward [104.71533106301598]
ウェブから大量の画像テキストペアをトレーニングしたマルチモーダルエンコーダであるCLIPを用いて、マルチモーダル類似性を計算し、報酬関数として利用する。
また、追加のテキストアノテーションを必要としない文法を改善するために、CLIPテキストエンコーダの簡単な微調整戦略を提案する。
テキスト・ツー・イメージ検索とFineCapEvalの実験において、提案したCLIP誘導モデルは、CIDEr最適化モデルよりも顕著なキャプションを生成する。
論文 参考訳(メタデータ) (2022-05-26T02:46:09Z) - RefineCap: Concept-Aware Refinement for Image Captioning [34.35093893441625]
我々はRefineCapと呼ばれる新しいモデルを提案し、デコーダ誘導ビジュアルセマンティクスを用いて言語デコーダの出力語彙を洗練させる。
本モデルは,従来の視覚概念モデルと比較して,MS-COCOデータセット上での優れた性能を実現する。
論文 参考訳(メタデータ) (2021-09-08T10:12:14Z) - Exploring Semantic Relationships for Unpaired Image Captioning [40.401322131624866]
視覚領域と言語領域を高レベルな意味情報でブリッジすることで、不適切な画像キャプションを実現する。
画像の理解を深めるため,セマンティック・リレーション・エクスプローラーを提案する。
提案手法は,CIDErのスコアが8%に向上したペア設定下で,5つの強いベースラインを向上する。
論文 参考訳(メタデータ) (2021-06-20T09:10:11Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z) - Discoverability in Satellite Imagery: A Good Sentence is Worth a
Thousand Pictures [0.0]
小さな衛星星座は地球の陸地を毎日カバーしている。
テキストアノテーションを原画素から抽出するには、2つの依存機械学習モデルが必要である。
衛星画像キャプションにおいて,これまでで最大のベンチマークで7つのモデルを評価した。
論文 参考訳(メタデータ) (2020-01-03T20:41:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。