論文の概要: OVG-HQ: Online Video Grounding with Hybrid-modal Queries
- arxiv url: http://arxiv.org/abs/2508.11903v1
- Date: Sat, 16 Aug 2025 04:21:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.441063
- Title: OVG-HQ: Online Video Grounding with Hybrid-modal Queries
- Title(参考訳): OVG-HQ: ハイブリッドモダルクエリによるオンラインビデオグラウンド
- Authors: Runhao Zeng, Jiaqi Mao, Minghao Lai, Minh Hieu Phan, Yanjie Dong, Wei Wang, Qi Chen, Xiping Hu,
- Abstract要約: ビデオグラウンドタスクは、クエリに基づいて、通常テキスト形式で、ビデオ内の特定のモーメントを見つけることに焦点を当てる。
従来のVGは、ビデオのストリーミングや、ビジュアルなキューを使ったクエリなど、いくつかのシナリオで苦労している。
テキスト,画像,ビデオセグメント,およびそれらの組み合わせを用いたオンラインセグメントのローカライズを可能にする,OVG-HQ(Online Video Grounding with Hybrid-modal Queries)というタスクを提案する。
- 参考スコア(独自算出の注目度): 19.937584866244038
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video grounding (VG) task focuses on locating specific moments in a video based on a query, usually in text form. However, traditional VG struggles with some scenarios like streaming video or queries using visual cues. To fill this gap, we present a new task named Online Video Grounding with Hybrid-modal Queries (OVG-HQ), which enables online segment localization using text, images, video segments, and their combinations. This task poses two new challenges: limited context in online settings and modality imbalance during training, where dominant modalities overshadow weaker ones. To address these, we propose OVG-HQ-Unify, a unified framework featuring a Parametric Memory Block (PMB) that retain previously learned knowledge to enhance current decision and a cross-modal distillation strategy that guides the learning of non-dominant modalities. This design enables a single model to effectively handle hybrid-modal queries. Due to the lack of suitable datasets, we construct QVHighlights-Unify, an expanded dataset with multi-modal queries. Besides, since offline metrics overlook prediction timeliness, we adapt them to the online setting, introducing oR@n, IoU=m, and online mean Average Precision (omAP) to evaluate both accuracy and efficiency. Experiments show that our OVG-HQ-Unify outperforms existing models, offering a robust solution for online, hybrid-modal video grounding. Source code and datasets are available at https://github.com/maojiaqi2324/OVG-HQ.
- Abstract(参考訳): ビデオグラウンド(VG)タスクは、クエリに基づいて、通常テキスト形式で、ビデオ内の特定のモーメントを特定することに焦点を当てる。
しかし、従来のVGは、ビデオのストリーミングやビジュアルキューを使ったクエリといったいくつかのシナリオで苦労している。
このギャップを埋めるために、テキスト、画像、ビデオセグメント、およびそれらの組み合わせを用いたオンラインセグメントローカライズを可能にする、OVG-HQ(Online Video Grounding with Hybrid-modal Queries)という新しいタスクを提案する。
このタスクは、オンライン設定における限られたコンテキストとトレーニング中のモダリティの不均衡という2つの新しい課題をもたらす。
そこで本研究では,従来の学習知識を保持できるPMB(Parametric Memory Block)を備えた統合フレームワークであるOVG-HQ-Unifyと,非支配的なモダリティの学習を導くクロスモーダル蒸留戦略を提案する。
この設計により、単一モデルはハイブリッドモーダルクエリを効果的に処理できる。
適切なデータセットがないため、マルチモーダルクエリを備えた拡張データセットであるQVHighlights-Unifyを構築した。
さらに、オフラインメトリクスが予測タイムラインを見渡すので、オンライン設定に適応し、oR@n、IoU=m、オンライン平均平均精度(omAP)を導入し、精度と効率の両方を評価します。
実験によると、OVG-HQ-Unifyは既存のモデルより優れており、オンラインのハイブリッドモダルビデオグラウンドに堅牢なソリューションを提供する。
ソースコードとデータセットはhttps://github.com/maojiaqi2324/OVG-HQで入手できる。
関連論文リスト
- HiVG: Hierarchical Multimodal Fine-grained Modulation for Visual Grounding [80.85164509232261]
HiVGは多層適応型クロスモーダルブリッジと階層型マルチモーダル低ランク適応(HiLoRA)パラダイムで構成されている。
HiLoRAは、階層的な方法で、クロスモーダルな特徴を浅い層から深い層に適応させることによって、知覚エラーの蓄積を防止する。
論文 参考訳(メタデータ) (2024-04-20T14:57:31Z) - MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [63.14000659130736]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。
まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。
そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文 参考訳(メタデータ) (2023-11-28T17:59:04Z) - Reinforcement Learning Friendly Vision-Language Model for Minecraft [31.863271032186038]
クロスモーダルなコントラスト学習フレームワークであるCLIP4MCを提案する。
オープンなタスクに対する本質的な報酬関数として機能する強化学習(RL)フレンドリな視覚言語モデル(VLM)を学習することを目的としている。
提案手法は,ベースラインよりもRLタスクの性能がよいことを示す。
論文 参考訳(メタデータ) (2023-03-19T05:20:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。