論文の概要: Simple Token-Level Confidence Improves Caption Correctness
- arxiv url: http://arxiv.org/abs/2305.07021v1
- Date: Thu, 11 May 2023 17:58:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-12 13:36:25.049617
- Title: Simple Token-Level Confidence Improves Caption Correctness
- Title(参考訳): 単純な token-Level Confidence はキャプションの正確性を改善する
- Authors: Suzanne Petryk, Spencer Whitehead, Joseph E. Gonzalez, Trevor Darrell,
Anna Rohrbach, Marcus Rohrbach
- Abstract要約: Token-Level Confidence(TLC)は、字幕の正確さを評価するシンプルな方法であるが、驚くほど効果的である。
画像キャプションに関する視覚言語モデルを微調整し、画像と提案されたキャプションをモデルに入力し、単語やシーケンスに対するトークンの信頼度を集計し、画像キャプションの一貫性を推定する。
- 参考スコア(独自算出の注目度): 117.33497608933169
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to judge whether a caption correctly describes an image is a
critical part of vision-language understanding. However, state-of-the-art
models often misinterpret the correctness of fine-grained details, leading to
errors in outputs such as hallucinating objects in generated captions or poor
compositional reasoning. In this work, we explore Token-Level Confidence, or
TLC, as a simple yet surprisingly effective method to assess caption
correctness. Specifically, we fine-tune a vision-language model on image
captioning, input an image and proposed caption to the model, and aggregate
either algebraic or learned token confidences over words or sequences to
estimate image-caption consistency. Compared to sequence-level scores from
pretrained models, TLC with algebraic confidence measures achieves a relative
improvement in accuracy by 10% on verb understanding in SVO-Probes and
outperforms prior state-of-the-art in image and group scores for compositional
reasoning in Winoground by a relative 37% and 9%, respectively. When training
data are available, a learned confidence estimator provides further improved
performance, reducing object hallucination rates in MS COCO Captions by a
relative 30% over the original model and setting a new state-of-the-art.
- Abstract(参考訳): キャプションが正しく画像を記述するかどうかを判断する能力は、視覚言語理解の重要な部分である。
しかし、最先端のモデルは、しばしば細かな詳細の正確さを誤って解釈し、生成されたキャプションにおける幻覚的オブジェクトや構成的推論の欠如といったアウトプットの誤りを引き起こす。
本研究では,字幕正当性を簡易かつ驚くほど効果的に評価する方法として,Token-Level Confidence(TLC)を探索する。
具体的には,画像キャプションに関する視覚言語モデルを微調整し,画像と提案するキャプションをモデルに入力し,単語やシーケンスに対する代数的あるいは学習済みのトークン信頼度を集約し,画像キャプション一貫性を推定する。
事前学習されたモデルのシーケンスレベルのスコアと比較すると、代数的信頼度尺度を持つtlcは、svo-probesの動詞理解において10%の相対的精度向上を達成し、ウィノグラウンドでの合成推論のためのグループスコアをそれぞれ37%、9%で上回っている。
トレーニングデータが利用可能になった場合、学習された信頼度推定器はさらなる性能向上を提供し、MS COCOキャプションのオブジェクト幻覚率を元のモデルよりも30%削減し、新しい最先端設定を行う。
関連論文リスト
- Fluent and Accurate Image Captioning with a Self-Trained Reward Model [47.213906345208315]
本稿では,自己生成陰性に基づく学習可能な報酬モデルに基づくキャプション手法であるSelf-Capを提案する。
我々の識別器は、字幕の正しさを促進するために訓練された微調整されたコントラスト画像テキストモデルである。
論文 参考訳(メタデータ) (2024-08-29T18:00:03Z) - Image-Caption Encoding for Improving Zero-Shot Generalization [12.906307770270026]
OODデータポイントが誤って分類された場合、その正しいクラスはTop-K予測クラスによく見られる。
上位予測クラス内の正しいクラスに対してモデル予測を行うために,イメージ・キャプション (ICE) 法を提案する。
本手法は他のSOTA法と組み合わせて,Top-1 OODアキュラシーを平均0.5%,挑戦的データセットで最大3%向上させることができる。
論文 参考訳(メタデータ) (2024-02-05T01:14:07Z) - ALIP: Adaptive Language-Image Pre-training with Synthetic Caption [78.93535202851278]
コントラスト言語-画像事前学習(CLIP)は、様々な視覚言語タスクのパフォーマンスを大幅に向上させた。
Webデータに固有のノイズと未整合画像テキストペアが存在することは、表現学習のパフォーマンスに影響を与える可能性がある。
本稿では、原文と合成キャプションの両方からの監督を統合するバイパスモデルであるAdaptive Language-Image Pre-Training(ALIP)を提案する。
論文 参考訳(メタデータ) (2023-08-16T15:19:52Z) - Self-Supervised Image Captioning with CLIP [0.0]
本稿では,自己監督型画像キャプション手法を提案する。
小さなラベル付きデータセットから初期信号を学んだ後、ラベルなしデータに基づいて自己教師付き学習に移行する。
ラベル付きCOCOデータセットの2%未満を活用するにもかかわらず、我々の手法は完全なデータセットでトレーニングされた最先端モデルに匹敵するパフォーマンスを提供する。
論文 参考訳(メタデータ) (2023-06-26T23:29:16Z) - Weakly Supervised Vision-and-Language Pre-training with Relative
Representations [76.63610760577214]
弱教師付き視覚・言語事前学習は、事前学習のデータコストを効果的に削減することを示した。
現在の手法では、イメージのローカル記述(オブジェクトタグ)のみをクロスモーダルアンカーとして使用し、事前トレーニングのための弱い整列されたイメージテキストペアを構築する。
論文 参考訳(メタデータ) (2023-05-24T18:10:24Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - Improving Text-to-Image Synthesis Using Contrastive Learning [4.850820365312369]
本稿では,合成画像の品質向上とセマンティック一貫性向上のための対照的な学習手法を提案する。
CUBとCOCOのデータセットを用いた2つの一般的なテキスト・画像合成モデルであるAttnGANとDM-GANに対するアプローチを評価する。
論文 参考訳(メタデータ) (2021-07-06T06:43:31Z) - Visually Grounded Compound PCFGs [65.04669567781634]
言語理解のための視覚的基盤の爆発は、最近多くの注目を集めている。
本研究では,視覚的な文法誘導について検討し,未ラベルテキストとその視覚的キャプションから選挙区を学習する。
論文 参考訳(メタデータ) (2020-09-25T19:07:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。