論文の概要: GLaVE-Cap: Global-Local Aligned Video Captioning with Vision Expert Integration
- arxiv url: http://arxiv.org/abs/2509.11360v1
- Date: Sun, 14 Sep 2025 17:25:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.04832
- Title: GLaVE-Cap: Global-Local Aligned Video Captioning with Vision Expert Integration
- Title(参考訳): GLaVE-Cap: ビジョンエキスパート統合によるグローバルローカライズされたビデオキャプション
- Authors: Wan Xu, Feng Zhu, Yihan Zeng, Yuanfan Guo, Ming Liu, Hang Xu, Wangmeng Zuo,
- Abstract要約: 我々は,CaptioningのためのVision Expert統合を備えたグローバルローカライズフレームワークであるGLaVE-Capを提案する。
GLaVE-Benchは,既存のベンチマークよりもビデオ毎のクエリが5倍多い,包括的なビデオキャプションベンチマークである。
また、16Kの高品質な細粒度ビデオキャプションと1.2Mに関連する質問応答ペアを含むトレーニングデータセットGLaVE-1.2Mを提供する。
- 参考スコア(独自算出の注目度): 57.5390432800788
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video detailed captioning aims to generate comprehensive video descriptions to facilitate video understanding. Recently, most efforts in the video detailed captioning community have been made towards a local-to-global paradigm, which first generates local captions from video clips and then summarizes them into a global caption. However, we find this paradigm leads to less detailed and contextual-inconsistent captions, which can be attributed to (1) no mechanism to ensure fine-grained captions, and (2) weak interaction between local and global captions. To remedy the above two issues, we propose GLaVE-Cap, a Global-Local aligned framework with Vision Expert integration for Captioning, which consists of two core modules: TrackFusion enables comprehensive local caption generation, by leveraging vision experts to acquire cross-frame visual prompts, coupled with a dual-stream structure; while CaptionBridge establishes a local-global interaction, by using global context to guide local captioning, and adaptively summarizing local captions into a coherent global caption. Besides, we construct GLaVE-Bench, a comprehensive video captioning benchmark featuring 5X more queries per video than existing benchmarks, covering diverse visual dimensions to facilitate reliable evaluation. We further provide a training dataset GLaVE-1.2M containing 16K high-quality fine-grained video captions and 1.2M related question-answer pairs. Extensive experiments on four benchmarks show that our GLaVE-Cap achieves state-of-the-art performance. Besides, the ablation studies and student model analyses further validate the effectiveness of the proposed modules and the contribution of GLaVE-1.2M to the video understanding community. The source code, model weights, benchmark, and dataset will be open-sourced.
- Abstract(参考訳): ビデオの詳細なキャプションは、ビデオ理解を容易にする包括的なビデオ記述を生成することを目的としている。
近年,ビデオクリップからローカルキャプションを生成し,それをグローバルキャプションにまとめる,地域とグローバルのパラダイムに向けて,詳細なキャプションコミュニティの取り組みが進められている。
しかし,このパラダイムは,(1)微粒なキャプションを確実にするためのメカニズムが存在しないこと,(2)局所的なキャプションとグローバルなキャプションの相互作用が弱いこと,などの理由から,細部や文脈に一貫性のないキャプションの少ないキャプションに繋がることがわかった。
上記の2つの課題を解決するため,我々はGLaVE-Capを提案する。GLaVE-Capはビジョンエキスパートによるキャプション統合を備えたグローバルローカライズフレームワークで,2つのコアモジュールから構成される。TrackFusionは,ビジョンエキスパートが2つのストリーム構造と組み合わせて,クロスフレームな視覚プロンプトを取得することによって,総合的なローカルキャプション生成を可能にする。
さらに,GLaVE-Benchという,既存のベンチマークよりも5倍のクエリを収録した総合的なビデオキャプションベンチマークを構築し,様々な視覚的次元をカバーし,信頼性の高い評価を容易にする。
さらに、16Kの高品質な細粒度ビデオキャプションと1.2Mに関連する質問応答ペアを含むトレーニングデータセットGLaVE-1.2Mを提供する。
4つのベンチマークの大規模な実験により、GLaVE-Capは最先端のパフォーマンスを達成した。
さらに,Ablation研究と学生モデル解析により,提案モジュールの有効性とGLaVE-1.2Mの映像理解コミュニティへの貢献がさらに検証された。
ソースコード、モデルウェイト、ベンチマーク、データセットがオープンソース化される。
関連論文リスト
- SGCap: Decoding Semantic Group for Zero-shot Video Captioning [14.484825416367338]
ゼロショットビデオキャプションは、ビデオテキストペアのモデルをトレーニングすることなく、ビデオを記述するための文を生成することを目的としている。
ゼロショットビデオキャプションのためのセマンティックグループキャプション(SGCap)手法を提案する。
論文 参考訳(メタデータ) (2025-08-02T09:05:45Z) - Perceive Anything: Recognize, Explain, Caption, and Segment Anything in Images and Videos [53.723410664944566]
本稿では,画像やビデオの総合的な領域レベルの視覚的理解のためのフレームワークであるPerceive Anything Model(PAM)を提案する。
提案手法は,Large Language Models (LLMs) を統合することで,強力なセグメンテーションモデルSAM 2を拡張し,オブジェクトセグメンテーションの同時実現を可能にする。
SAM 2のリッチな視覚的特徴をマルチモーダルトークンに効率的に変換するために、Semantic Perceiverという重要なコンポーネントが導入されている。
論文 参考訳(メタデータ) (2025-06-05T17:51:39Z) - Any2Caption:Interpreting Any Condition to Caption for Controllable Video Generation [118.5096631571738]
我々は任意の条件下で制御可能なビデオ生成のための新しいフレームワークであるAny2Captionを提示する。
現代のマルチモーダルな大言語モデル(MLLM)を活用することで、Any2Captionはテキスト、画像、ビデオ、地域、動き、カメラのポーズなど、多種多様な入力を解釈する。
包括的評価は,既存の映像生成モデルの様々な側面において,制御性と映像品質の大幅な向上を示す。
論文 参考訳(メタデータ) (2025-03-31T17:59:01Z) - The Devil is in the Distributions: Explicit Modeling of Scene Content is Key in Zero-Shot Video Captioning [89.64905703368255]
ゼロショットビデオキャプションのためのプログレッシブな多粒性テキストプロンプト戦略を提案する。
提案手法は,名詞句,名詞句のシーングラフ,全文を含む3つの異なる記憶バンクを構築する。
論文 参考訳(メタデータ) (2025-03-31T03:00:19Z) - GL-RG: Global-Local Representation Granularity for Video Captioning [52.56883051799501]
ビデオキャプションのためのGL-RGフレームワーク,すなわちtextbfGlobal-textbfLocal textbfRepresentation textbfGranularityを提案する。
GL-RGは従来の取り組みに対して3つの利点を挙げている: 1) 異なるビデオ範囲から広範囲の視覚表現を明示的に活用して言語表現を改善する; 2) フレーム間の映像コンテンツの記述的粒度を得るために、リッチなセマンティック語彙を生成する新しいグローバルローカルエンコーダを考案する; 3) モデル学習をインクリメンタルに組織し、最適なキャプションを創出するインクリメンタルトレーニング戦略を開発する。
論文 参考訳(メタデータ) (2022-05-22T02:00:09Z) - Hierarchical Modular Network for Video Captioning [162.70349114104107]
ビデオ表現と言語意味論を3つのレベルからブリッジし,キャプションを生成する階層型モジュールネットワークを提案する。
提案手法は,MSVD 104.0% と MSR-VTT 51.5% の CIDEr スコアの2つのベンチマークにおいて,最先端のモデルに対して良好に動作する。
論文 参考訳(メタデータ) (2021-11-24T13:07:05Z) - CLIP4Caption: CLIP for Video Caption [9.470254059503862]
私たちは、CLIP対応ビデオテキストマッチングネットワーク(VTM)に基づくビデオキャプションを改善するCLIP4Captionフレームワークを提案する。
このフレームワークは、視覚と言語の両方からの情報を完全に活用し、テキスト生成のための強力なテキスト関連ビデオ機能を学ぶためにモデルを強制している。
論文 参考訳(メタデータ) (2021-10-13T10:17:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。