論文の概要: CapRL: Stimulating Dense Image Caption Capabilities via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.22647v1
- Date: Fri, 26 Sep 2025 17:59:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.642528
- Title: CapRL: Stimulating Dense Image Caption Capabilities via Reinforcement Learning
- Title(参考訳): CapRL:強化学習による高密度画像キャプション能力の促進
- Authors: Long Xing, Xiaoyi Dong, Yuhang Zang, Yuhang Cao, Jianze Liang, Qidong Huang, Jiaqi Wang, Feng Wu, Dahua Lin,
- Abstract要約: 本稿では,キャプションの品質を再定義するトレーニングフレームワークであるCaptioning Reinforcement Learning (CapRL)を紹介する。
主観的画像キャプションタスクにRLVRを適用した最初の研究として、CapRLは複数の設定を大幅に強化することを示した。
CapRLはQwen2.5-VL-72Bに匹敵する性能を達成し、ベースラインのマージンは平均8.4%を超えた。
- 参考スコア(独自算出の注目度): 90.19455861166745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image captioning is a fundamental task that bridges the visual and linguistic domains, playing a critical role in pre-training Large Vision-Language Models (LVLMs). Current state-of-the-art captioning models are typically trained with Supervised Fine-Tuning (SFT), a paradigm that relies on expensive, non-scalable data annotated by humans or proprietary models. This approach often leads to models that memorize specific ground-truth answers, limiting their generality and ability to generate diverse, creative descriptions. To overcome the limitation of SFT, we propose applying the Reinforcement Learning with Verifiable Rewards (RLVR) paradigm to the open-ended task of image captioning. A primary challenge, however, is designing an objective reward function for the inherently subjective nature of what constitutes a "good" caption. We introduce Captioning Reinforcement Learning (CapRL), a novel training framework that redefines caption quality through its utility: a high-quality caption should enable a non-visual language model to accurately answer questions about the corresponding image. CapRL employs a decoupled two-stage pipeline where an LVLM generates a caption, and the objective reward is derived from the accuracy of a separate, vision-free LLM answering Multiple-Choice Questions based solely on that caption. As the first study to apply RLVR to the subjective image captioning task, we demonstrate that CapRL significantly enhances multiple settings. Pretraining on the CapRL-5M caption dataset annotated by CapRL-3B results in substantial gains across 12 benchmarks. Moreover, within the Prism Framework for caption quality evaluation, CapRL achieves performance comparable to Qwen2.5-VL-72B, while exceeding the baseline by an average margin of 8.4%. Code is available here: https://github.com/InternLM/CapRL.
- Abstract(参考訳): 画像キャプションは視覚領域と言語領域を橋渡しする基本的なタスクであり、LVLM(Large Vision-Language Models)の事前訓練において重要な役割を果たす。
現在の最先端のキャプションモデルは、人間やプロプライエタリなモデルによって注釈付けされた高価な非スケール可能なデータに依存するパラダイムであるSupervised Fine-Tuning (SFT)で訓練されるのが一般的である。
このアプローチは、しばしば特定の根本的答えを記憶するモデルにつながり、その一般化と多様で創造的な記述を生成する能力を制限する。
SFTの限界を克服するために、画像キャプションのオープンなタスクにRLVR(Reinforcement Learning with Verifiable Rewards)パラダイムを適用することを提案する。
しかし、第一の課題は、「良い」字幕を構成する本質的に主観的な性質のための客観的報酬関数を設計することである。
本稿では,キャプションの品質を再定義する新しいトレーニングフレームワークであるCaptioning Reinforcement Learning(CapRL)を紹介する。
CapRLは、LVLMがキャプションを生成する分離された2段パイプラインを使用し、目的報酬は、そのキャプションのみに基づいて、複数のチョイス質問に答える別個の視覚のないLLMの精度から導かれる。
主観的画像キャプションタスクにRLVRを適用した最初の研究として、CapRLは複数の設定を大幅に強化することを示した。
CapRL-3BがアノテートしたCapRL-5Mキャプションデータセットの事前トレーニングにより、12ベンチマークで大幅に向上した。
さらに、キャプション品質評価のためのPrism Frameworkでは、CapRLはQwen2.5-VL-72Bに匹敵するパフォーマンスを達成し、ベースラインを平均8.4%上回る。
コードは、https://github.com/InternLM/CapRL.comで入手できる。
関連論文リスト
- ScaleCap: Inference-Time Scalable Image Captioning via Dual-Modality Debiasing [128.8346376825612]
高品質画像キャプションの主な課題は、LVLMの固有のバイアスにある。
本稿では,キャプションを継続的に強化・校正し,推論予算を増大させる,スケーラブルなデバイアス付きキャプション戦略を提案する。
450KイメージにScaleCapをアノテートし、LVLMプレトレーニングに使用することで、11の広く使用されているベンチマークで一貫したパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-06-24T17:59:55Z) - Multi-LLM Collaborative Caption Generation in Scientific Documents [30.856381292477177]
MLBCAP(Multi-LLM Collaborative Figure Caption Generation)というフレームワークを導入する。
私たちのアプローチは3つの重要なモジュールに展開します。
人間の評価から,我々のアプローチによる情報キャプションは人書きキャプションよりも格段に高いことが示された。
論文 参考訳(メタデータ) (2025-01-05T14:09:12Z) - Distinctive Image Captioning: Leveraging Ground Truth Captions in CLIP
Guided Reinforcement Learning [9.443456804893207]
強化学習(RL)は、生成されたキャプションと入力画像の相互検索類似度スコアを報酬として使用してトレーニングをガイドする。
近年の研究では、訓練済みのクロスモーダル検索モデルを用いて報酬を得られることが示されており、参照キャプションの必要性を完全に排除している。
本稿では,GTキャプションを異なる方法で活用する画像キャプション訓練戦略を提案する。
論文 参考訳(メタデータ) (2024-02-21T17:05:06Z) - Reinforcement Learning from Diffusion Feedback: Q* for Image Search [2.5835347022640254]
モデル非依存学習を用いた画像生成のための2つのモデルを提案する。
RLDFは、事前保存された報酬関数誘導による視覚模倣のための特異なアプローチである。
クラス一貫性と強力な視覚的多様性を示す様々な領域にまたがる高品質な画像を生成する。
論文 参考訳(メタデータ) (2023-11-27T09:20:12Z) - Paraphrasing Is All You Need for Novel Object Captioning [126.66301869607656]
新たな物体キャプション (NOC) は, 訓練中に真実のキャプションを観察することなく, 対象を含む画像を記述することを目的としている。
本稿では,NOC の2段階学習フレームワークである Paraphrasing-to-Captioning (P2C) について述べる。
論文 参考訳(メタデータ) (2022-09-25T22:56:04Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - Fine-grained Image Captioning with CLIP Reward [104.71533106301598]
ウェブから大量の画像テキストペアをトレーニングしたマルチモーダルエンコーダであるCLIPを用いて、マルチモーダル類似性を計算し、報酬関数として利用する。
また、追加のテキストアノテーションを必要としない文法を改善するために、CLIPテキストエンコーダの簡単な微調整戦略を提案する。
テキスト・ツー・イメージ検索とFineCapEvalの実験において、提案したCLIP誘導モデルは、CIDEr最適化モデルよりも顕著なキャプションを生成する。
論文 参考訳(メタデータ) (2022-05-26T02:46:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。