論文の概要: OwlCap: Harmonizing Motion-Detail for Video Captioning via HMD-270K and Caption Set Equivalence Reward
- arxiv url: http://arxiv.org/abs/2508.18634v1
- Date: Tue, 26 Aug 2025 03:18:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.657155
- Title: OwlCap: Harmonizing Motion-Detail for Video Captioning via HMD-270K and Caption Set Equivalence Reward
- Title(参考訳): OwlCap: HMD-270Kとキャプションセット等価リワードによる動画キャプションのための高調波モーションディテール
- Authors: Chunlin Zhong, Qiuxia Hou, Zhangjun Zhou, Shuang Hao, Haonan Lu, Yanhao Zhang, He Tang, Xiang Bai,
- Abstract要約: ビデオキャプション方式は、しばしばモーションディーテールの不均衡に悩まされる。
OwlCapは動画キャプションの強力なマルチモーダル大言語モデル(MLLM)である。
- 参考スコア(独自算出の注目度): 47.36044825976202
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Video captioning aims to generate comprehensive and coherent descriptions of the video content, contributing to the advancement of both video understanding and generation. However, existing methods often suffer from motion-detail imbalance, as models tend to overemphasize one aspect while neglecting the other. This imbalance results in incomplete captions, which in turn leads to a lack of consistency in video understanding and generation. To address this issue, we propose solutions from two aspects: 1) Data aspect: We constructed the Harmonizing Motion-Detail 270K (HMD-270K) dataset through a two-stage pipeline: Motion-Detail Fusion (MDF) and Fine-Grained Examination (FGE). 2) Optimization aspect: We introduce the Caption Set Equivalence Reward (CSER) based on Group Relative Policy Optimization (GRPO). CSER enhances completeness and accuracy in capturing both motion and details through unit-to-set matching and bidirectional validation. Based on the HMD-270K supervised fine-tuning and GRPO post-training with CSER, we developed OwlCap, a powerful video captioning multi-modal large language model (MLLM) with motion-detail balance. Experimental results demonstrate that OwlCap achieves significant improvements compared to baseline models on two benchmarks: the detail-focused VDC (+4.2 Acc) and the motion-focused DREAM-1K (+4.6 F1). The HMD-270K dataset and OwlCap model will be publicly released to facilitate video captioning research community advancements.
- Abstract(参考訳): ビデオキャプションは、ビデオコンテンツの包括的で一貫性のある記述を生成することを目的としており、ビデオ理解と生成の両方の進歩に貢献している。
しかし、既存の手法は、モデルが一方を無視しながら一方の側面を過度に強調する傾向があるため、しばしばモーションディーテールの不均衡に悩まされる。
この不均衡は不完全なキャプションをもたらし、その結果、ビデオの理解と生成の一貫性が欠如する。
この問題に対処するため、我々は2つの側面から解決策を提案する。
1)HMD-270K(Harmonizing Motion-Detail 270K)データセットを,MDF(Motion-Detail Fusion)とFGE(Final-Grained Examination)という2段階のパイプラインで構築した。
2)最適化の側面:グループ相対政策最適化(GRPO)に基づくCSER(Caption Set Equivalence Reward)を導入する。
CSERは、ユニット・ツー・セットのマッチングと双方向の検証を通じて、動きと詳細の両方をキャプチャする完全性と精度を向上させる。
CSERによる微調整とGRPOのポストトレーニングを指導したHMD-270Kに基づいて,動作詳細バランスを持つマルチモーダル大言語モデル(MLLM)の強力なビデオキャプションであるOwlCapを開発した。
実験の結果、OwlCapは2つのベンチマークのベースラインモデルに比べて、細部に集中したVDC (+4.2 Acc) と動きにフォーカスしたDREAM-1K (+4.6 F1) で大幅に改善されていることが示されている。
HMD-270KデータセットとOwlCapモデルが公開され、ビデオキャプションによる研究コミュニティの進歩が促進される。
関連論文リスト
- AVC-DPO: Aligned Video Captioning via Direct Preference Optimization [50.08618093204503]
ビデオマルチモーダル大言語モデル(ビデオMLLM)は,ビデオキャプションタスクにおいて大きな進歩を遂げている。
そこで我々は,ビデオMLLMのキャプション機能を高めるために,AVC-DPO(Designed Video Captioning via Direct Preference Optimization)を提案する。
LOVE@PRCV'25 Workshop Track 1A: Video Detailed Captioning Challengeで、ビデオ詳細キャプションのベンチマークで1位を獲得しました。
論文 参考訳(メタデータ) (2025-07-02T08:51:45Z) - video-SALMONN 2: Captioning-Enhanced Audio-Visual Large Language Models [33.70837005629285]
低ランク適応 (LoRA) を用いた高度音声視覚大言語モデル (LLM) である Video-SALMONN 2 を提案する。
そこで本稿では,映像記述の完全性と正確性を評価するための新しい指標を提案する。
実験の結果,MrDPOはビデオSALMONN 2のキャプション精度を大幅に向上し,キャプション誤り率を28%低下させることがわかった。
論文 参考訳(メタデータ) (2025-06-18T07:58:41Z) - VideoMolmo: Spatio-Temporal Grounding Meets Pointing [66.19964563104385]
VideoMolmoは、ビデオシーケンスのきめ細かいポインティングに適したモデルだ。
新しい仮面融合はSAM2を双方向の点伝播に用いている。
The generalization of VideoMolmo, we introduced VPoMolS-temporal, a challenge out-of-distribution benchmark across two real-world scenarios。
論文 参考訳(メタデータ) (2025-06-05T17:59:29Z) - The 1st Solution for 4th PVUW MeViS Challenge: Unleashing the Potential of Large Multimodal Models for Referring Video Segmentation [31.44879457190659]
本稿では,ビデオセグメンテーションにおけるLMMの可能性を完全に解き放つための,シンプルで効果的な推論最適化手法を提案する。
我々のソリューションはMeViSテストセットで61.98%のJ&Fを達成し、CVPR 2025で第4回PVUWチャレンジMeViSトラックで1位となった。
論文 参考訳(メタデータ) (2025-04-07T15:24:54Z) - Any2Caption:Interpreting Any Condition to Caption for Controllable Video Generation [118.5096631571738]
我々は任意の条件下で制御可能なビデオ生成のための新しいフレームワークであるAny2Captionを提示する。
現代のマルチモーダルな大言語モデル(MLLM)を活用することで、Any2Captionはテキスト、画像、ビデオ、地域、動き、カメラのポーズなど、多種多様な入力を解釈する。
包括的評価は,既存の映像生成モデルの様々な側面において,制御性と映像品質の大幅な向上を示す。
論文 参考訳(メタデータ) (2025-03-31T17:59:01Z) - MotionBench: Benchmarking and Improving Fine-grained Video Motion Understanding for Vision Language Models [30.139277087078764]
MotionBenchは、ビデオ理解モデルの詳細な動作理解を評価するために設計された評価ベンチマークである。
さまざまなソースから収集されたデータが含まれており、現実世界のビデオコンテンツの広範な表現が保証されている。
我々のベンチマークは、より有能な映像理解モデルの開発をガイドし、動機づけることを目的としている。
論文 参考訳(メタデータ) (2025-01-06T11:57:38Z) - VidTwin: Video VAE with Decoupled Structure and Dynamics [24.51768013474122]
VidTwinはコンパクトなビデオオートエンコーダで、ビデオを2つの異なる遅延空間に分離する。
構造潜時ベクトルは全体内容とグローバルな動きを捉え、ダイナミクス潜時ベクトルは微細な詳細と高速な動きを表す。
実験により、VidTwinは高い圧縮率で高い復元品質で0.20%を達成することが示された。
論文 参考訳(メタデータ) (2024-12-23T17:16:58Z) - Understanding Road Layout from Videos as a Whole [82.30800791500869]
我々はこれをトップビューの道路属性予測問題として定式化し、その目的は各フレームの属性を正確かつ一貫して予測することである。
我々は、ビデオにおけるカメラモーションの活用と、長期ビデオ情報の導入という3つの新しい側面を生かした。
論文 参考訳(メタデータ) (2020-07-02T00:59:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。