論文の概要: UGC-VideoCaptioner: An Omni UGC Video Detail Caption Model and New Benchmarks
- arxiv url: http://arxiv.org/abs/2507.11336v1
- Date: Tue, 15 Jul 2025 14:08:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:03.145294
- Title: UGC-VideoCaptioner: An Omni UGC Video Detail Caption Model and New Benchmarks
- Title(参考訳): UGC-VideoCaptioner:Omni UGC Video Detail Caption Modelと新しいベンチマーク
- Authors: Peiran Wu, Yunze Liu, Zhengdong Zhu, Enmin Zhou, Shawn Shen,
- Abstract要約: 現実世界のユーザー生成ビデオ、特にTikTokのようなプラットフォームでは、リッチでインターツウィンドなオーディオビジュアルコンテンツがしばしば表示される。
既存のビデオキャプションベンチマークとモデルは、シーンダイナミクス、話者意図、物語コンテキストを伝達する際のオーディオの重要な役割を見越して、主に視覚中心のままである。
これらの課題に対処するために,ショートフォームのユーザ生成ビデオの完全なキャプションに特化して設計された,新しいベンチマークおよびモデルフレームワークである-VideoCapを紹介した。
- 参考スコア(独自算出の注目度): 3.466119510238668
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world user-generated videos, especially on platforms like TikTok, often feature rich and intertwined audio visual content. However, existing video captioning benchmarks and models remain predominantly visual centric, overlooking the crucial role of audio in conveying scene dynamics, speaker intent, and narrative context. This lack of omni datasets and lightweight, capable models hampers progress in fine grained, multimodal video understanding. To address these challenges, we introduce UGC-VideoCap, a new benchmark and model framework specifically designed for detailed omnimodal captioning of short form user-generated videos. Unlike prior datasets, UGC-VideoCap emphasizes balanced integration of audio and visual modalities, featuring 1000 TikTok videos annotated through a structured three stage human-in-the-loop pipeline covering audio only, visual only, and joint audio visual semantics. The benchmark also includes 4000 carefully crafted QA pairs probing both unimodal and cross modal understanding. Alongside the dataset, we propose UGC-VideoCaptioner(3B), a 3B parameter captioning model distilled from Gemini 2.5 Flash. Using a novel two-stage training strategy supervised fine tuning followed by Group Relative Policy Optimization (GRPO), our approach enables efficient adaptation from limited data while maintaining competitive performance. Together, our benchmark and model offer a high-quality foundation and a data-efficient solution for advancing omnimodal video captioning in unconstrained real-world UGC settings.
- Abstract(参考訳): 現実世界のユーザー生成ビデオ、特にTikTokのようなプラットフォームでは、リッチでインターツウィンドなオーディオビジュアルコンテンツがしばしば表示される。
しかし、既存のビデオキャプションベンチマークとモデルは、シーンのダイナミクス、話者意図、物語の文脈を伝える上でのオーディオの重要な役割を見越して、主に視覚中心のままである。
このオムニデータセットの欠如と軽量で有能なモデルにより、細粒度でマルチモーダルなビデオ理解が進む。
これらの課題に対処するために,我々は,短い形式のユーザ生成ビデオの詳細な準モーダルキャプション用に特別に設計された,新しいベンチマークおよびモデルフレームワークであるUGC-VideoCapを紹介した。
以前のデータセットとは異なり、UGC-VideoCapはオーディオとヴィジュアルのバランスの取れた統合を強調している。
ベンチマークには、一様理解と横断的理解の両方を示す4000の慎重に構築されたQAペアも含まれている。
本稿では,Gemini 2.5 Flashから抽出した3BパラメータキャプションモデルであるUGC-VideoCaptioner(3B)を提案する。
新たな2段階の訓練戦略を用いて微調整とグループ相対政策最適化(GRPO)を指導し,競争性能を維持しつつ,限られたデータからの効率的な適応を可能にする。
我々のベンチマークとモデルは、制約のない現実のUGC設定で全方位ビデオキャプションを進めるための高品質な基礎とデータ効率のソリューションを提供する。
関連論文リスト
- ARC-Hunyuan-Video-7B: Structured Video Comprehension of Real-World Shorts [56.75723197779384]
ARC-Hunyuan-Videoは、構造化理解のために視覚、音声、テキストの信号をエンドツーエンドに処理するマルチモーダルモデルである。
本モデルでは,複数粒度のタイムスタンプ付きビデオキャプションと要約,オープンなビデオ質問応答,時間的ビデオグラウンド,ビデオ推論が可能である。
論文 参考訳(メタデータ) (2025-07-28T15:52:36Z) - Any2Caption:Interpreting Any Condition to Caption for Controllable Video Generation [118.5096631571738]
我々は任意の条件下で制御可能なビデオ生成のための新しいフレームワークであるAny2Captionを提示する。
現代のマルチモーダルな大言語モデル(MLLM)を活用することで、Any2Captionはテキスト、画像、ビデオ、地域、動き、カメラのポーズなど、多種多様な入力を解釈する。
包括的評価は,既存の映像生成モデルの様々な側面において,制御性と映像品質の大幅な向上を示す。
論文 参考訳(メタデータ) (2025-03-31T17:59:01Z) - Pretrained Image-Text Models are Secretly Video Captioners [38.66202065611397]
画像ベースモデルにより、複数の特殊映像キャプションシステムよりも優れた性能が得られることが判明した。
適応モデルでは,MSRVTTとMSVDでは2位,VATEXでは3位であった。
資源最適化の観点から、このビデオキャプション研究は、モデルスケールの最適化、データ効率の最大化、強化学習の導入の3つの基本的な要素に焦点を当てている。
論文 参考訳(メタデータ) (2025-02-19T01:53:03Z) - MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions [69.9122231800796]
MMTrailは,2000万回以上のトレーラークリップと視覚的キャプションを組み込んだ大規模マルチモーダルビデオ言語データセットである。
本稿では,27.1k時間以上のトレーラービデオで様々なモダリティアノテーションを実現するシステムキャプションフレームワークを提案する。
我々のデータセットは、大きめのマルチモーダル言語モデルトレーニングのためのパスを舗装する可能性がある。
論文 参考訳(メタデータ) (2024-07-30T16:43:24Z) - Unified Video-Language Pre-training with Synchronized Audio [21.607860535968356]
シンクロナイズドオーディオを用いたビデオ言語事前学習のための拡張フレームワークを提案する。
我々のフレームワークは、統合された自己教師型変換器で三モーダル表現を学習する。
0.9Mデータのみを事前学習した本モデルは,最先端のベースラインに対する結果の改善を実現する。
論文 参考訳(メタデータ) (2024-05-12T07:59:46Z) - InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。
私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文 参考訳(メタデータ) (2024-03-22T17:57:42Z) - Learnable Irrelevant Modality Dropout for Multimodal Action Recognition
on Modality-Specific Annotated Videos [10.478479158063982]
本稿では,アクション認識のための視覚特異的アノテーション付きビデオにおける音声モダリティを効果的に活用するための新しいフレームワークを提案する。
我々は、各ビデオラベルをK関連オーディオラベルにマッピングするセマンティックオーディオビデオラベル辞書(SAVLD)を構築した。
また、視覚的モダリティを効率的にモデル化する2ストリームビデオトランスも提案する。
論文 参考訳(メタデータ) (2022-03-06T17:31:06Z) - AudioVisual Video Summarization [103.47766795086206]
ビデオ要約では、既存のアプローチは音声情報を無視しながら視覚情報を利用するだけだ。
本稿では,映像要約作業における音声情報と視覚情報を協調的に活用し,これを実現するためにAVRN(AudioVisual Recurrent Network)を開発することを提案する。
論文 参考訳(メタデータ) (2021-05-17T08:36:10Z) - HERO: Hierarchical Encoder for Video+Language Omni-representation
Pre-training [75.55823420847759]
本稿では,大規模ビデオ+言語オムニ表現学習のための新しいフレームワークHEROを提案する。
HEROは階層構造でマルチモーダル入力を符号化し、ビデオフレームのローカルコンテキストをクロスモーダル変換器でキャプチャする。
HEROはHowTo100Mと大規模TVデータセットを共同でトレーニングし、マルチキャラクタインタラクションによる複雑な社会的ダイナミクスの理解を深める。
論文 参考訳(メタデータ) (2020-05-01T03:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。