論文の概要: ReflectCAP: Detailed Image Captioning with Reflective Memory
- arxiv url: http://arxiv.org/abs/2604.12357v1
- Date: Tue, 14 Apr 2026 06:47:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.296068
- Title: ReflectCAP: Detailed Image Captioning with Reflective Memory
- Title(参考訳): ReflectCAP:リフレクティブメモリによる詳細なイメージキャプション
- Authors: Kyungmin Min, Minbeom Kim, Kang-il Lee, Seunghyun Yoon, Kyomin Jung,
- Abstract要約: Reflective Note-Guided Captioning (ReflectCAP)
マルチエージェントパイプラインは、ターゲットとする大きな視覚言語モデルが一貫して幻覚しているものや、体系的に見落としているものを分析する。
推論時に、Structured Reflection Notesは、キャプションモデルを両方の軸に沿って制御する。
- 参考スコア(独自算出の注目度): 25.197101683206267
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Detailed image captioning demands both factual grounding and fine-grained coverage, yet existing methods have struggled to achieve them simultaneously. We address this tension with Reflective Note-Guided Captioning (ReflectCAP), where a multi-agent pipeline analyzes what the target large vision-language model (LVLM) consistently hallucinates and what it systematically overlooks, distilling these patterns into reusable guidelines called Structured Reflection Notes. At inference time, these notes steer the captioning model along both axes -- what to avoid and what to attend to -- yielding detailed captions that jointly improve factuality and coverage. Applying this method to 8 LVLMs spanning the GPT-4.1 family, Qwen series, and InternVL variants, ReflectCAP reaches the Pareto frontier of the trade-off between factuality and coverage, and delivers substantial gains on CapArena-Auto, where generated captions are judged head-to-head against strong reference models. Moreover, ReflectCAP offers a more favorable trade-off between caption quality and compute cost than model scaling or existing multi-agent pipelines, which incur 21--36\% greater overhead. This makes high-quality detailed captioning viable under real-world cost and latency constraints.
- Abstract(参考訳): 詳細な画像キャプションは、事実的根拠と細かな範囲の両方を要求するが、既存の手法はそれらを同時に達成するのに苦労している。
マルチエージェントパイプラインは、目標とする大規模視覚言語モデル(LVLM)が一貫して幻覚しているものや、体系的に見落としているものを分析し、これらのパターンを再利用可能なガイドラインである構造化反射音(Structured Reflection Notes)に抽出する。
推測時、これらのメモは両方の軸に沿ってキャプションモデル(避けるべきもの、出席すべきもの)を操縦し、事実とカバレッジを共同で改善する詳細なキャプションを生成する。
この手法をGPT-4.1系、Qwen系、InternVL系の8つのLVLMに適用すると、リフレクションCAPは事実とカバレッジの間のトレードオフのパレートフロンティアに達し、生成したキャプションが強い参照モデルに対して真っ向から判断されるCapArena-Autoにかなりの利益をもたらす。
さらに、リフレクションCAPは、モデルスケーリングや既存のマルチエージェントパイプラインよりもキャプション品質と計算コストのトレードオフが好ましい。
これにより、現実世界のコストとレイテンシの制約の下で、高品質な詳細なキャプションが実現できます。
関連論文リスト
- RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning [15.881702574415861]
RubiCapは、ルーリックから微細でサンプル固有の報酬信号を導き出す、新しい強化学習フレームワークである。
ルビキャップは、CapArenaの最高勝利率、教師付き蒸留法、先行RL法、人為的アノテーション、GPT-4V拡張出力を達成している。
論文 参考訳(メタデータ) (2026-03-10T03:51:27Z) - CCCaption: Dual-Reward Reinforcement Learning for Complete and Correct Image Captioning [23.289413412387223]
CCCaption: 専用微調整コーパスを備えた双方向逆強化学習フレームワークについて紹介する。
完全性のために、私たちは多様なLVLMを使用して、画像を一連のビジュアルクエリに切り離し、これらのクエリにもっと答えるキャプションに報いる。
正当性については,サブキャプションクエリの正当性を検証することによって,幻覚を含む字幕を罰する。
論文 参考訳(メタデータ) (2026-02-25T07:34:26Z) - Token-Level Inference-Time Alignment for Vision-Language Models [58.41370989069588]
VLM(Vision-Language Models)は、現代のマルチモーダルインテリジェンスの重要なバックボーンとなっている。
本稿では,基本VLMを凍結し,その分布を近似する報酬モデルをトレーニングする軽量フレームワークTITAを提案する。
推測中、暗黙の選好信号は報酬モデルと目標VLMの対数確率比として抽出され、密集した自己回帰フィードバックが得られる。
論文 参考訳(メタデータ) (2025-10-20T09:58:03Z) - CapRL: Stimulating Dense Image Caption Capabilities via Reinforcement Learning [90.19455861166745]
本稿では,キャプションの品質を再定義するトレーニングフレームワークであるCaptioning Reinforcement Learning (CapRL)を紹介する。
主観的画像キャプションタスクにRLVRを適用した最初の研究として、CapRLは複数の設定を大幅に強化することを示した。
CapRLはQwen2.5-VL-72Bに匹敵する性能を達成し、ベースラインのマージンは平均8.4%を超えた。
論文 参考訳(メタデータ) (2025-09-26T17:59:55Z) - HAVE: Head-Adaptive Gating and ValuE Calibration for Hallucination Mitigation in Large Language Models [29.677280135028436]
LLM(Large Language Models)は、検索強化または長文生成において幻覚を生じることが多い。
HAVE(Head-Adaptive Gating and ValuE)は,頭部重みと生の注意重みに対処するパラメータフリーデコードフレームワークである。
HAVEは一貫して幻覚を減らし、DAGCDを含む強力なベースラインをわずかに上回っている。
論文 参考訳(メタデータ) (2025-09-08T12:06:09Z) - ScaleCap: Inference-Time Scalable Image Captioning via Dual-Modality Debiasing [128.8346376825612]
高品質画像キャプションの主な課題は、LVLMの固有のバイアスにある。
本稿では,キャプションを継続的に強化・校正し,推論予算を増大させる,スケーラブルなデバイアス付きキャプション戦略を提案する。
450KイメージにScaleCapをアノテートし、LVLMプレトレーニングに使用することで、11の広く使用されているベンチマークで一貫したパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-06-24T17:59:55Z) - Dual-Stage Value-Guided Inference with Margin-Based Reward Adjustment for Fast and Faithful VLM Captioning [23.851747078717473]
We introduced textbfValue-guided Inference with Margin-based Reward (ViMaR), a two-stage inference framework that improves efficiency and output fidelity。
ViMaRは、より信頼性が高く、事実的正確で、詳細で、解説的なキャプションを生成し、しかも4$times$ Speedupを達成している。
論文 参考訳(メタデータ) (2025-06-18T17:23:36Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - Mitigating Object Hallucination in Large Vision-Language Models via Image-Grounded Guidance [51.30560006045442]
Image-gRounded guIdaNcE (MARINE)は、トレーニングフリーかつAPIフリーのフレームワークである。
MARINEは、LVLMに画像グラウンドガイダンスを導入することにより、推論中の物体の幻覚を効果的かつ効率的に低減する。
私たちのフレームワークの柔軟性は、さらに複数のビジョンモデルの統合を可能にし、より信頼性が高く堅牢なオブジェクトレベルのガイダンスを可能にします。
論文 参考訳(メタデータ) (2024-02-13T18:59:05Z) - FigCaps-HF: A Figure-to-Caption Generative Framework and Benchmark with Human Feedback [69.4639239117551]
FigCaps-HFは、新しいフィギュアキャプション生成フレームワークである。
本フレームワークは,1) 図形選択ペアの品質を評価するための自動手法,2) 人物フィードバックを用いた新しい強化学習(RLHF) により,読取者の好みに応じて生成図形選択モデルを最適化する。
論文 参考訳(メタデータ) (2023-07-20T13:40:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。