論文の概要: VIVECaption: A Split Approach to Caption Quality Improvement
- arxiv url: http://arxiv.org/abs/2603.07401v1
- Date: Sun, 08 Mar 2026 01:29:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:14.404746
- Title: VIVECaption: A Split Approach to Caption Quality Improvement
- Title(参考訳): VIVE Caption: キャプション品質改善のための分割的なアプローチ
- Authors: Varun Ananth, Baqiao Liu, Haoran Cai,
- Abstract要約: キャプション品質は、高品質なテキスト・ツー・イメージ(T2I)とテキスト・ツー・ビデオ(T2V)生成モデルのトレーニングにおいて重要なボトルネックとなっている。
この技術レポートでは、字幕品質改善のための体系的な2面アプローチであるVIVECaptionを紹介します。
- 参考スコア(独自算出の注目度): 4.78223063012581
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Caption quality has emerged as a critical bottleneck in training high-quality text-to-image (T2I) and text-to-video (T2V) generative models. While visual language models (VLMs) are commonly deployed to generate captions from visual data, they suffer from hallucinations, poor compositional reasoning, and limited fine-grained understanding, resulting in misaligned image-caption pairs that degrade downstream model performance. This technical report introduces VIVECaption, a systematic two-sided approach to caption quality improvement. We first establish a comprehensive taxonomy of caption evaluation metrics, distinguishing between "universal" and "instance-grounded" metrics, with the ultimate goal of showcasing the use-cases and tradeoffs between different caption quality metrics. We then use this language to describe our two-sided approach to caption quality improvement: (1) a gold-standard dataset creation methodology using stratified sampling and (2) a model alignment strategy encompassing context alignment and parameter-level finetuning using SFT. We demonstrate our methodology on open-source models, focusing on structured caption formats that enable better parsing and downstream utilization. We ultimately show that using a finetuned character detection model in an image captioning pipeline significantly improves holistic image-caption alignment quality. Our work addresses the growing need for high-quality "vegan" training data in enterprise AI development, providing practical solutions for teams seeking to improve caption-image alignment without relying on potentially copyright-protected web-scraped content.
- Abstract(参考訳): キャプション品質は、高品質なテキスト・ツー・イメージ(T2I)とテキスト・ツー・ビデオ(T2V)生成モデルのトレーニングにおいて重要なボトルネックとなっている。
視覚言語モデル(VLM)は、一般的に視覚データからキャプションを生成するためにデプロイされるが、幻覚、構成的推論の貧弱、きめ細かな理解に苦しむため、下流モデルの性能を低下させる不整合イメージ・キャプションペアが生じる。
この技術レポートでは、字幕品質改善のための体系的な2面アプローチであるVIVECaptionを紹介します。
まず,キャプション評価指標の包括的分類を確立し,異なるキャプション品質指標間のユースケースとトレードオフを示すことを目的として,「ユニバーサル」と「インスタントグラウンド」のメトリクスを区別する。
1) 階層化サンプリングを用いたゴールドスタンダードデータセット作成手法,(2) SFTを用いたコンテキストアライメントとパラメータレベルの微調整を含むモデルアライメント戦略。
提案手法は,より優れた解析と下流利用が可能な構造化キャプションフォーマットに着目し,オープンソースモデルに関する方法論を実証する。
最終的に、画像キャプションパイプラインにおける微調整文字検出モデルを用いることで、全体像キャプションアライメントの品質が大幅に向上することを示す。
我々の研究は、企業AI開発における高品質な"vegan"トレーニングデータの必要性の高まりに対処し、著作権保護されたWebスクラッドコンテンツに頼ることなく、キャプションとイメージのアライメントを改善しようとするチームのための実践的なソリューションを提供します。
関連論文リスト
- Translatotron-V(ison): An End-to-End Model for In-Image Machine Translation [81.45400849638347]
In-image Machine Translation (IIMT) は、ソース言語のテキストを含む画像をターゲット言語の翻訳を含む画像に変換することを目的としている。
本稿では,4つのモジュールからなるエンドツーエンドIIMTモデルを提案する。
本モデルでは,70.9%のパラメータしか持たないカスケードモデルと比較して競争性能が向上し,画素レベルのエンド・ツー・エンドIIMTモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-07-03T08:15:39Z) - What Makes for Good Image Captions? [50.48589893443939]
我々のフレームワークは、優れた画像キャプションは、情報的に十分であり、最小限の冗長であり、人間によって容易に理解できるという3つの重要な側面のバランスをとるべきであると仮定している。
本稿では,局所的な視覚情報とグローバルな視覚情報を統合することで,豊かなキャプションを生成するParamid of Captions(PoCa)手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T12:49:57Z) - The Solution for the CVPR2024 NICE Image Captioning Challenge [2.614188906122931]
本報告では,2024 NICEのトピック1ゼロショット画像キャプションに対する解法について紹介する。
論文 参考訳(メタデータ) (2024-04-19T09:32:16Z) - Improving Image Captioning Descriptiveness by Ranking and LLM-based Fusion [8.526212812623202]
State-of-The-Art (SoTA)イメージキャプションモデルは、しばしばMicroSoft Common Objects in Contextデータセットでトレーニングされる。
本稿では,異なるSoTAキャプションモデルから生成されたキャプションを組み合わせて,よりリッチで情報性の高いキャプションを生成する手法を提案する。
論文 参考訳(メタデータ) (2023-06-20T15:13:02Z) - Large-Scale Bidirectional Training for Zero-Shot Image Captioning [44.17587735943739]
本稿では、画像キャプションをゼロショットにするための効率的なトレーニングと推論のフレームワークであるBITTERSについて紹介する。
大規模なトレーニングセットとモデルアーキテクチャを慎重に選択することが,ゼロショット画像キャプションの実現の鍵であることを示す。
論文 参考訳(メタデータ) (2022-11-13T00:09:36Z) - Paraphrasing Is All You Need for Novel Object Captioning [126.66301869607656]
新たな物体キャプション (NOC) は, 訓練中に真実のキャプションを観察することなく, 対象を含む画像を記述することを目的としている。
本稿では,NOC の2段階学習フレームワークである Paraphrasing-to-Captioning (P2C) について述べる。
論文 参考訳(メタデータ) (2022-09-25T22:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。