論文の概要: BalCapRL: A Balanced Framework for RL-Based MLLM Image Captioning
- arxiv url: http://arxiv.org/abs/2605.07394v1
- Date: Fri, 08 May 2026 07:48:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.901029
- Title: BalCapRL: A Balanced Framework for RL-Based MLLM Image Captioning
- Title(参考訳): BalCapRL: RLベースのMLLMイメージキャプチャのためのバランスのとれたフレームワーク
- Authors: Shaokai Ye, Vasileios Saveris, Yihao Qian, Jiaming Hu, Elmira Amirloo, Peter Grasch,
- Abstract要約: そこで本稿では, 実用意識の正しさ, 参照カバレッジ, 言語品質を協調的に最適化する, よりバランスのとれた強化学習フレームワークを提案する。
提案手法はキャプション品質を常に改善し, ピークゲインは+13.6 DCScore, +9.0 CaptionQA, +29.0 Cap である。
- 参考スコア(独自算出の注目度): 4.441850776689605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image captioning is one of the most fundamental tasks in computer vision. Owing to its open-ended nature, it has received significant attention in the era of multimodal large language models (MLLMs). In pursuit of ever more detailed and accurate captions, recent work has increasingly turned to reinforcement learning (RL). However, existing captioning-RL methods and evaluation metrics often emphasize a narrow notion of caption quality, inducing trade-offs across core dimensions of captioning. For example, utility-oriented objectives can encourage noisy, hallucinated, or overlong captions that improve downstream question answering while harming fluency, whereas arena-style objectives can favor fluent but generic descriptions with limited usefulness. To address this, we propose a more balanced RL framework that jointly optimizes utility-aware correctness, reference coverage, and linguistic quality. In order to effectively optimize the resulting continuous multi-objective reward formulation, we apply GDPO-style reward-decoupled normalization to continuous-valued captioning rewards and show that it improves performance over vanilla GRPO. Additionally, we introduce length-conditional reward masking, yielding a more suitable length penalty for captioning. Across LLaVA-1.5-7B and Qwen2.5-VL 3B and 7B base models, our method consistently improves caption quality, with peak gains of +13.6 DCScore, +9.0 CaptionQA, and +29.0 CapArena across different models.
- Abstract(参考訳): 画像キャプションはコンピュータビジョンにおける最も基本的なタスクの1つである。
オープンな性質のため、マルチモーダル・大規模言語モデル(MLLM)の時代において大きな注目を集めている。
より詳細な正確なキャプションを追求する中で、最近の研究は強化学習(RL)へと変化しつつある。
しかし、既存のキャプション-RL法と評価基準はキャプションの質の狭い概念を強調し、キャプションのコア次元間でのトレードオフを引き起こす。
例えば、ユーティリティ指向の目的は、低頻度を害しながら下流の質問応答を改善するノイズ、幻覚、あるいは過剰なキャプションを促進することができる。
そこで本稿では,ユーティリティ・アウェアの正確性,参照カバレッジ,言語的品質を協調的に最適化する,よりバランスのとれたRLフレームワークを提案する。
連続多目的報酬の定式化を効果的に最適化するために,連続評価キャプション報酬にGDPOスタイルの報酬分離正規化を適用し,バニラGRPOよりも優れた性能を示す。
また,キャプションに適切な長さのペナルティを与える長条件報酬マスキングも導入した。
LLaVA-1.5-7B と Qwen2.5-VL 3B と 7B のベースモデル全体で,本手法はキャプションの品質を常に改善し,ピークゲインは+13.6 DCScore,+9.0 CaptionQA,+29.0 CapArena である。
関連論文リスト
- ITIScore: An Image-to-Text-to-Image Rating Framework for the Image Captioning Ability of MLLMs [84.09282931360089]
ICBenchは、12のコンテンツカテゴリをカバーする大規模な画像キャプションベンチマークであり、2K画像の短いキャプションと長いキャプションで構成されている。
我々は、詳細な評価範囲で平均世論スコア(MOS)を得るために、広範囲にわたる主観的研究を行う。
画像からテキストへ画像への変換を行うフレームワークをベースとした自動評価基準であるtextbfitiscore を提案する。
論文 参考訳(メタデータ) (2026-04-04T15:33:07Z) - RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning [15.881702574415861]
RubiCapは、ルーリックから微細でサンプル固有の報酬信号を導き出す、新しい強化学習フレームワークである。
ルビキャップは、CapArenaの最高勝利率、教師付き蒸留法、先行RL法、人為的アノテーション、GPT-4V拡張出力を達成している。
論文 参考訳(メタデータ) (2026-03-10T03:51:27Z) - CCCaption: Dual-Reward Reinforcement Learning for Complete and Correct Image Captioning [23.289413412387223]
CCCaption: 専用微調整コーパスを備えた双方向逆強化学習フレームワークについて紹介する。
完全性のために、私たちは多様なLVLMを使用して、画像を一連のビジュアルクエリに切り離し、これらのクエリにもっと答えるキャプションに報いる。
正当性については,サブキャプションクエリの正当性を検証することによって,幻覚を含む字幕を罰する。
論文 参考訳(メタデータ) (2026-02-25T07:34:26Z) - CapRL: Stimulating Dense Image Caption Capabilities via Reinforcement Learning [90.19455861166745]
本稿では,キャプションの品質を再定義するトレーニングフレームワークであるCaptioning Reinforcement Learning (CapRL)を紹介する。
主観的画像キャプションタスクにRLVRを適用した最初の研究として、CapRLは複数の設定を大幅に強化することを示した。
CapRLはQwen2.5-VL-72Bに匹敵する性能を達成し、ベースラインのマージンは平均8.4%を超えた。
論文 参考訳(メタデータ) (2025-09-26T17:59:55Z) - One More Glance with Sharp Eyes: Rethinking Lightweight Captioning as a Practical Visual Specialist [58.89538703878721]
125M-パラメータ言語モデルを用いて,軽量キャプションモデルを構築した。
単文で評価するが、詳細なキャプションタスクで評価する。
シャープ・イード・リファインメント (Sharp-Eyed Refinement) という新しいキャプション・フレームワークを開発し, 粗い記述をより正確なキャプションに書き換えることでキャプションの質を高める。
論文 参考訳(メタデータ) (2025-08-29T09:29:27Z) - Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage [50.84150600032693]
MLLM(Multimodal large language model)は、非常に詳細なキャプションを生成するのに優れるが、幻覚を引き起こすことが多い。
我々は,LLM-MLLM協調を利用して与えられたキャプションを補正するマルチエージェント手法を提案する。
提案手法は, キャプションの精度を向上し, GPT-4Vによるキャプションの精度を向上する。
論文 参考訳(メタデータ) (2024-12-20T01:37:22Z) - Mitigating Open-Vocabulary Caption Hallucinations [33.960405731583656]
オープン語彙設定における画像キャプションにおける幻覚に対処する枠組みを提案する。
我々のフレームワークには、生成基盤モデルを利用してオープン語彙オブジェクト幻覚を評価する新しいベンチマークであるOpenCHAIRが含まれている。
閉じたオブジェクトリストを使わずにオープン語彙の幻覚を緩和するために,MOCHaを提案する。
論文 参考訳(メタデータ) (2023-12-06T17:28:03Z) - Improving Image Captioning Descriptiveness by Ranking and LLM-based Fusion [8.526212812623202]
State-of-The-Art (SoTA)イメージキャプションモデルは、しばしばMicroSoft Common Objects in Contextデータセットでトレーニングされる。
本稿では,異なるSoTAキャプションモデルから生成されたキャプションを組み合わせて,よりリッチで情報性の高いキャプションを生成する手法を提案する。
論文 参考訳(メタデータ) (2023-06-20T15:13:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。