論文の概要: RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning
- arxiv url: http://arxiv.org/abs/2603.09160v1
- Date: Tue, 10 Mar 2026 03:51:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.013228
- Title: RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning
- Title(参考訳): RubiCap:高密度画像キャプチャのためのルーブリックガイド強化学習
- Authors: Tzu-Heng Huang, Sirajul Salekin, Javier Movellan, Frederic Sala, Manjot Bilkhu,
- Abstract要約: RubiCapは、ルーリックから微細でサンプル固有の報酬信号を導き出す、新しい強化学習フレームワークである。
ルビキャップは、CapArenaの最高勝利率、教師付き蒸留法、先行RL法、人為的アノテーション、GPT-4V拡張出力を達成している。
- 参考スコア(独自算出の注目度): 15.881702574415861
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dense image captioning is critical for cross-modal alignment in vision-language pretraining and text-to-image generation, but scaling expert-quality annotations is prohibitively expensive. While synthetic captioning via strong vision-language models (VLMs) is a practical alternative, supervised distillation often yields limited output diversity and weak generalization. Reinforcement learning (RL) could overcome these limitations, but its successes have so far been concentrated in verifiable domains that rely on deterministic checkers -- a luxury not available in open-ended captioning. We address this bottleneck with RubiCap, a novel RL framework that derives fine-grained, sample-specific reward signals from LLM-written rubrics. RubiCap first assembles a diverse committee of candidate captions, then employs an LLM rubric writer to extract consensus strengths and diagnose deficiencies in the current policy. These insights are converted into explicit evaluation criteria, enabling an LLM judge to decompose holistic quality assessment and replace coarse scalar rewards with structured, multi-faceted evaluations. Across extensive benchmarks, RubiCap achieves the highest win rates on CapArena, outperforming supervised distillation, prior RL methods, human-expert annotations, and GPT-4V-augmented outputs. On CaptionQA, it demonstrates superior word efficiency: our 7B model matches Qwen2.5-VL-32B-Instruct, and our 3B model surpasses its 7B counterpart. Remarkably, using the compact RubiCap-3B as a captioner produces stronger pretrained VLMs than those trained on captions from proprietary models.
- Abstract(参考訳): 画像キャプションは、視覚言語による事前訓練やテキスト・ツー・イメージ生成において、クロスモーダルなアライメントには欠かせないが、専門家品質のアノテーションのスケーリングは違法に高価である。
強い視覚言語モデル(VLM)による合成キャプションは、実用的な代替手段であるが、教師付き蒸留は、限られた出力の多様性と弱い一般化をもたらすことが多い。
強化学習(RL)はこれらの制限を克服する可能性があるが、その成功は決定論的チェッカーに依存する検証可能な領域に集中している。
このボトルネックに対処するため,LLMで記述した潤滑油から微細な試料特異的報酬信号を導出する新しいRLフレームワークであるRubiCapを設計した。
ルビキャップはまず様々なキャプションの委員会を組織し、その後LLMのルーリックライターを雇い、コンセンサスの強さを抽出し、現在の政策の欠陥を診断する。
これらの知見は明示的な評価基準に変換され、LLM判事は全体的品質評価を分解し、粗いスカラー報酬を構造化された多面的評価に置き換えることができる。
広範囲のベンチマークで、RubiCapはCapArenaの最高勝利率を達成し、教師付き蒸留、以前のRL法、人間専門家のアノテーション、GPT-4Vの出力を上回ります。
CaptionQAでは、7BモデルがQwen2.5-VL-32B-Instructと一致し、3Bモデルは7Bモデルを上回っている。
注目すべきは、コンパクトなRubiCap-3Bをキャプタとして使用すると、プロプライエタリなモデルのキャプタでトレーニングされたものよりも、より強力な事前訓練VLMが生成されることである。
関連論文リスト
- CapRL: Stimulating Dense Image Caption Capabilities via Reinforcement Learning [90.19455861166745]
本稿では,キャプションの品質を再定義するトレーニングフレームワークであるCaptioning Reinforcement Learning (CapRL)を紹介する。
主観的画像キャプションタスクにRLVRを適用した最初の研究として、CapRLは複数の設定を大幅に強化することを示した。
CapRLはQwen2.5-VL-72Bに匹敵する性能を達成し、ベースラインのマージンは平均8.4%を超えた。
論文 参考訳(メタデータ) (2025-09-26T17:59:55Z) - ScaleCap: Inference-Time Scalable Image Captioning via Dual-Modality Debiasing [128.8346376825612]
高品質画像キャプションの主な課題は、LVLMの固有のバイアスにある。
本稿では,キャプションを継続的に強化・校正し,推論予算を増大させる,スケーラブルなデバイアス付きキャプション戦略を提案する。
450KイメージにScaleCapをアノテートし、LVLMプレトレーニングに使用することで、11の広く使用されているベンチマークで一貫したパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-06-24T17:59:55Z) - CapArena: Benchmarking and Analyzing Detailed Image Captioning in the LLM Era [41.135849912850695]
6000以上のペアワイドなキャプションバトルと高品質な人間の選好投票を備えたプラットフォームを構築します。
私たちのアリーナスタイルの評価はマイルストーンであり、GPT-4oのような主要なモデルが人間のパフォーマンスを達成または上回っていることを示している。
CapArena-Autoは詳細なキャプションのための正確で効率的な自動ベンチマークで、人間のランキングと94.3%の相関をテストあたり4ドルで達成しています。
論文 参考訳(メタデータ) (2025-03-16T02:56:09Z) - Multi-LLM Collaborative Caption Generation in Scientific Documents [30.856381292477177]
MLBCAP(Multi-LLM Collaborative Figure Caption Generation)というフレームワークを導入する。
私たちのアプローチは3つの重要なモジュールに展開します。
人間の評価から,我々のアプローチによる情報キャプションは人書きキャプションよりも格段に高いことが示された。
論文 参考訳(メタデータ) (2025-01-05T14:09:12Z) - Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage [50.84150600032693]
MLLM(Multimodal large language model)は、非常に詳細なキャプションを生成するのに優れるが、幻覚を引き起こすことが多い。
我々は,LLM-MLLM協調を利用して与えられたキャプションを補正するマルチエージェント手法を提案する。
提案手法は, キャプションの精度を向上し, GPT-4Vによるキャプションの精度を向上する。
論文 参考訳(メタデータ) (2024-12-20T01:37:22Z) - Exploring Annotation-free Image Captioning with Retrieval-augmented Pseudo Sentence Generation [21.54093527562344]
本稿では,大規模事前学習モデル (LPM) からの事前知識を蒸留し, 監視として活用する新たな戦略を提案する。
具体的には,Retrieval-augmented Pseudo Sentence Generation (RaPSG)を導入する。
実験結果から,SOTAキャプションの精度は様々な設定で優れていた。
論文 参考訳(メタデータ) (2023-07-27T10:16:13Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - Fine-grained Image Captioning with CLIP Reward [104.71533106301598]
ウェブから大量の画像テキストペアをトレーニングしたマルチモーダルエンコーダであるCLIPを用いて、マルチモーダル類似性を計算し、報酬関数として利用する。
また、追加のテキストアノテーションを必要としない文法を改善するために、CLIPテキストエンコーダの簡単な微調整戦略を提案する。
テキスト・ツー・イメージ検索とFineCapEvalの実験において、提案したCLIP誘導モデルは、CIDEr最適化モデルよりも顕著なキャプションを生成する。
論文 参考訳(メタデータ) (2022-05-26T02:46:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。