Fugu-MT 論文翻訳(概要): VIVECaption: A Split Approach to Caption Quality Improvement

論文の概要: VIVECaption: A Split Approach to Caption Quality Improvement

arxiv url: http://arxiv.org/abs/2603.07401v1
Date: Sun, 08 Mar 2026 01:29:07 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-10 15:13:14.404746
Title: VIVECaption: A Split Approach to Caption Quality Improvement
Title（参考訳）: VIVE Caption: キャプション品質改善のための分割的なアプローチ
Authors: Varun Ananth, Baqiao Liu, Haoran Cai,
Abstract要約: キャプション品質は、高品質なテキスト・ツー・イメージ(T2I)とテキスト・ツー・ビデオ(T2V)生成モデルのトレーニングにおいて重要なボトルネックとなっている。この技術レポートでは、字幕品質改善のための体系的な2面アプローチであるVIVECaptionを紹介します。
参考スコア（独自算出の注目度）: 4.78223063012581
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Caption quality has emerged as a critical bottleneck in training high-quality text-to-image (T2I) and text-to-video (T2V) generative models. While visual language models (VLMs) are commonly deployed to generate captions from visual data, they suffer from hallucinations, poor compositional reasoning, and limited fine-grained understanding, resulting in misaligned image-caption pairs that degrade downstream model performance. This technical report introduces VIVECaption, a systematic two-sided approach to caption quality improvement. We first establish a comprehensive taxonomy of caption evaluation metrics, distinguishing between "universal" and "instance-grounded" metrics, with the ultimate goal of showcasing the use-cases and tradeoffs between different caption quality metrics. We then use this language to describe our two-sided approach to caption quality improvement: (1) a gold-standard dataset creation methodology using stratified sampling and (2) a model alignment strategy encompassing context alignment and parameter-level finetuning using SFT. We demonstrate our methodology on open-source models, focusing on structured caption formats that enable better parsing and downstream utilization. We ultimately show that using a finetuned character detection model in an image captioning pipeline significantly improves holistic image-caption alignment quality. Our work addresses the growing need for high-quality "vegan" training data in enterprise AI development, providing practical solutions for teams seeking to improve caption-image alignment without relying on potentially copyright-protected web-scraped content.
Abstract（参考訳）: キャプション品質は、高品質なテキスト・ツー・イメージ(T2I)とテキスト・ツー・ビデオ(T2V)生成モデルのトレーニングにおいて重要なボトルネックとなっている。視覚言語モデル(VLM)は、一般的に視覚データからキャプションを生成するためにデプロイされるが、幻覚、構成的推論の貧弱、きめ細かな理解に苦しむため、下流モデルの性能を低下させる不整合イメージ・キャプションペアが生じる。この技術レポートでは、字幕品質改善のための体系的な2面アプローチであるVIVECaptionを紹介します。まず,キャプション評価指標の包括的分類を確立し,異なるキャプション品質指標間のユースケースとトレードオフを示すことを目的として,「ユニバーサル」と「インスタントグラウンド」のメトリクスを区別する。 1) 階層化サンプリングを用いたゴールドスタンダードデータセット作成手法,(2) SFTを用いたコンテキストアライメントとパラメータレベルの微調整を含むモデルアライメント戦略。提案手法は,より優れた解析と下流利用が可能な構造化キャプションフォーマットに着目し,オープンソースモデルに関する方法論を実証する。最終的に、画像キャプションパイプラインにおける微調整文字検出モデルを用いることで、全体像キャプションアライメントの品質が大幅に向上することを示す。我々の研究は、企業AI開発における高品質な"vegan"トレーニングデータの必要性の高まりに対処し、著作権保護されたWebスクラッドコンテンツに頼ることなく、キャプションとイメージのアライメントを改善しようとするチームのための実践的なソリューションを提供します。

論文の概要: VIVECaption: A Split Approach to Caption Quality Improvement

関連論文リスト