論文の概要: SC-Captioner: Improving Image Captioning with Self-Correction by Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2508.06125v1
- Date: Fri, 08 Aug 2025 08:45:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.146749
- Title: SC-Captioner: Improving Image Captioning with Self-Correction by Reinforcement Learning
- Title(参考訳): SC-Captioner:強化学習による自己補正による画像キャプションの改善
- Authors: Lin Zhang, Xianfang Zeng, Kangcong Li, Gang Yu, Tao Chen,
- Abstract要約: SC-Captionerはイメージキャプションモデルの自己修正を可能にする強化学習フレームワークである。
初期字幕と自己修正字幕のセット間の設定差を計算し、追加要素と削除要素を識別する。
大規模な視覚言語モデルにSC-Captionerを適用すると、様々なシナリオでより良い画像キャプションが生成される。
- 参考スコア(独自算出の注目度): 21.739084696595427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose SC-Captioner, a reinforcement learning framework that enables the self-correcting capability of image caption models. Our crucial technique lies in the design of the reward function to incentivize accurate caption corrections. Specifically, the predicted and reference captions are decomposed into object, attribute, and relation sets using scene-graph parsing algorithms. We calculate the set difference between sets of initial and self-corrected captions to identify added and removed elements. These elements are matched against the reference sets to calculate correctness bonuses for accurate refinements and mistake punishments for wrong additions and removals, thereby forming the final reward. For image caption quality assessment, we propose a set of metrics refined from CAPTURE that alleviate its incomplete precision evaluation and inefficient relation matching problems. Furthermore, we collect a fine-grained annotated image caption dataset, RefinedCaps, consisting of 6.5K diverse images from COCO dataset. Experiments show that applying SC-Captioner on large visual-language models can generate better image captions across various scenarios, significantly outperforming the direct preference optimization training strategy.
- Abstract(参考訳): 画像キャプションモデルの自己補正機能を実現する強化学習フレームワークであるSC-Captionerを提案する。
我々の重要な技術は、正確な字幕修正を動機付ける報酬関数の設計である。
具体的には、予測キャプションと参照キャプションを、シーングラフ解析アルゴリズムを用いてオブジェクト、属性、関係セットに分解する。
初期字幕と自己修正字幕のセット間の設定差を計算し、追加要素と削除要素を識別する。
これらの要素は参照セットと一致し、正確な精細化のための正当性ボーナスと間違った追加や削除のための誤罰を計算し、最終的な報酬を形成する。
画像キャプションの品質評価のために,不完全精度評価と非効率な関係マッチング問題を緩和するCAPTUREから改良された指標セットを提案する。
さらに、COCOデータセットから6.5Kの多様な画像からなる微粒な注釈付き画像キャプションデータセットRefinedCapsを収集する。
実験により、SC-Captionerを大規模視覚言語モデルに適用すると、様々なシナリオでより優れた画像キャプションが生成され、直接選好最適化トレーニング戦略よりも大幅に向上することが示された。
関連論文リスト
- Fluent and Accurate Image Captioning with a Self-Trained Reward Model [47.213906345208315]
本稿では,自己生成陰性に基づく学習可能な報酬モデルに基づくキャプション手法であるSelf-Capを提案する。
我々の識別器は、字幕の正しさを促進するために訓練された微調整されたコントラスト画像テキストモデルである。
論文 参考訳(メタデータ) (2024-08-29T18:00:03Z) - ASPIRE: Language-Guided Data Augmentation for Improving Robustness Against Spurious Correlations [43.323791505213634]
ASPIRE (Language-guided Data Augmentation for SPurious correlation Removal) は、スプリアスな特徴のない画像でトレーニングデータセットを補完するソリューションである。
トレーニングセットにグループラベルや既存の非スパースイメージを必要とせずに、非スパース画像を生成することができる。
先行手法の最悪のグループ分類精度を1%から38%向上させる。
論文 参考訳(メタデータ) (2023-08-19T20:18:15Z) - Simple Token-Level Confidence Improves Caption Correctness [117.33497608933169]
Token-Level Confidence(TLC)は、字幕の正確さを評価するシンプルな方法であるが、驚くほど効果的である。
画像キャプションに関する視覚言語モデルを微調整し、画像と提案されたキャプションをモデルに入力し、単語やシーケンスに対するトークンの信頼度を集計し、画像キャプションの一貫性を推定する。
論文 参考訳(メタデータ) (2023-05-11T17:58:17Z) - Large-Scale Bidirectional Training for Zero-Shot Image Captioning [44.17587735943739]
本稿では、画像キャプションをゼロショットにするための効率的なトレーニングと推論のフレームワークであるBITTERSについて紹介する。
大規模なトレーニングセットとモデルアーキテクチャを慎重に選択することが,ゼロショット画像キャプションの実現の鍵であることを示す。
論文 参考訳(メタデータ) (2022-11-13T00:09:36Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - Fine-grained Image Captioning with CLIP Reward [104.71533106301598]
ウェブから大量の画像テキストペアをトレーニングしたマルチモーダルエンコーダであるCLIPを用いて、マルチモーダル類似性を計算し、報酬関数として利用する。
また、追加のテキストアノテーションを必要としない文法を改善するために、CLIPテキストエンコーダの簡単な微調整戦略を提案する。
テキスト・ツー・イメージ検索とFineCapEvalの実験において、提案したCLIP誘導モデルは、CIDEr最適化モデルよりも顕著なキャプションを生成する。
論文 参考訳(メタデータ) (2022-05-26T02:46:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。