論文の概要: OVG-HQ: Online Video Grounding with Hybrid-modal Queries
- arxiv url: http://arxiv.org/abs/2508.11903v1
- Date: Sat, 16 Aug 2025 04:21:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.441063
- Title: OVG-HQ: Online Video Grounding with Hybrid-modal Queries
- Title(参考訳): OVG-HQ: ハイブリッドモダルクエリによるオンラインビデオグラウンド
- Authors: Runhao Zeng, Jiaqi Mao, Minghao Lai, Minh Hieu Phan, Yanjie Dong, Wei Wang, Qi Chen, Xiping Hu,
- Abstract要約: ビデオグラウンドタスクは、クエリに基づいて、通常テキスト形式で、ビデオ内の特定のモーメントを見つけることに焦点を当てる。
従来のVGは、ビデオのストリーミングや、ビジュアルなキューを使ったクエリなど、いくつかのシナリオで苦労している。
テキスト,画像,ビデオセグメント,およびそれらの組み合わせを用いたオンラインセグメントのローカライズを可能にする,OVG-HQ(Online Video Grounding with Hybrid-modal Queries)というタスクを提案する。
- 参考スコア(独自算出の注目度): 19.937584866244038
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video grounding (VG) task focuses on locating specific moments in a video based on a query, usually in text form. However, traditional VG struggles with some scenarios like streaming video or queries using visual cues. To fill this gap, we present a new task named Online Video Grounding with Hybrid-modal Queries (OVG-HQ), which enables online segment localization using text, images, video segments, and their combinations. This task poses two new challenges: limited context in online settings and modality imbalance during training, where dominant modalities overshadow weaker ones. To address these, we propose OVG-HQ-Unify, a unified framework featuring a Parametric Memory Block (PMB) that retain previously learned knowledge to enhance current decision and a cross-modal distillation strategy that guides the learning of non-dominant modalities. This design enables a single model to effectively handle hybrid-modal queries. Due to the lack of suitable datasets, we construct QVHighlights-Unify, an expanded dataset with multi-modal queries. Besides, since offline metrics overlook prediction timeliness, we adapt them to the online setting, introducing oR@n, IoU=m, and online mean Average Precision (omAP) to evaluate both accuracy and efficiency. Experiments show that our OVG-HQ-Unify outperforms existing models, offering a robust solution for online, hybrid-modal video grounding. Source code and datasets are available at https://github.com/maojiaqi2324/OVG-HQ.
- Abstract(参考訳): ビデオグラウンド(VG)タスクは、クエリに基づいて、通常テキスト形式で、ビデオ内の特定のモーメントを特定することに焦点を当てる。
しかし、従来のVGは、ビデオのストリーミングやビジュアルキューを使ったクエリといったいくつかのシナリオで苦労している。
このギャップを埋めるために、テキスト、画像、ビデオセグメント、およびそれらの組み合わせを用いたオンラインセグメントローカライズを可能にする、OVG-HQ(Online Video Grounding with Hybrid-modal Queries)という新しいタスクを提案する。
このタスクは、オンライン設定における限られたコンテキストとトレーニング中のモダリティの不均衡という2つの新しい課題をもたらす。
そこで本研究では,従来の学習知識を保持できるPMB(Parametric Memory Block)を備えた統合フレームワークであるOVG-HQ-Unifyと,非支配的なモダリティの学習を導くクロスモーダル蒸留戦略を提案する。
この設計により、単一モデルはハイブリッドモーダルクエリを効果的に処理できる。
適切なデータセットがないため、マルチモーダルクエリを備えた拡張データセットであるQVHighlights-Unifyを構築した。
さらに、オフラインメトリクスが予測タイムラインを見渡すので、オンライン設定に適応し、oR@n、IoU=m、オンライン平均平均精度(omAP)を導入し、精度と効率の両方を評価します。
実験によると、OVG-HQ-Unifyは既存のモデルより優れており、オンラインのハイブリッドモダルビデオグラウンドに堅牢なソリューションを提供する。
ソースコードとデータセットはhttps://github.com/maojiaqi2324/OVG-HQで入手できる。
関連論文リスト
- DVGBench: Implicit-to-Explicit Visual Grounding Benchmark in UAV Imagery with Large Vision-Language Models [30.675021628170114]
この記事では、ドローンの高品質な暗黙VGベンチマークであるDVGBenchを紹介します。
トラフィック、災害、セキュリティ、スポーツ、社会活動、生産活動の6つの主要なアプリケーションシナリオをカバーする。
我々は,新しいI2E-CoT(Implicit-to-Explicit Chain-of-Thought)を強化学習パラダイムに統合したLVLMであるDroneVG-R1を設計する。
論文 参考訳(メタデータ) (2026-01-02T22:42:38Z) - VOST-SGG: VLM-Aided One-Stage Spatio-Temporal Scene Graph Generation [18.15310805625469]
VOST-SGGはVLMが支援するワンステージST-SGGフレームワークであり、視覚言語モデルの常識推論機能を統合する。
述語分類を改善するために,視覚,テキスト,空間的手がかりを融合したマルチモーダル特徴バンクを提案する。
提案手法は,ST-SGGにおけるVLM支援型セマンティックプリエントとマルチモーダル機能の統合の有効性を検証し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-12-05T08:34:06Z) - Training-free Online Video Step Grounding [42.545599316279954]
ビデオステップグラウンド(VSG)は、ビデオ内でどのステップが実行されるかを検出することを目的としている。
我々は、最近のLarge Multimodal Models (LMM) のゼロショット機能を利用して、VSGをオンラインで、トレーニングなしで実行します。
タスク固有のチューニングを伴わないこのオンライン戦略は、オフラインおよびトレーニングベースのモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-10-19T20:11:52Z) - MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks [67.31276358668424]
AV-HaystacksQAという新しいタスクを導入し、クエリに応答して、異なるビデオにまたがる有能なセグメントを識別し、それらをリンクして最も有意義な回答を生成する。
AVHaystacksは、マルチビデオ検索および時間的グラウンドタスクにおけるLMMの能力を評価するために設計された3100の注釈付きQAペアからなるオーディオビジュアルベンチマークである。
提案するAVHaystackのQAタスクにおけるBLEU@4およびGPT評価スコアの基準値よりも89%と65%の相対的な改善を実現し、モデルに依存しないマルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-08T06:34:29Z) - VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。
GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。
フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T08:33:36Z) - Ego-VPA: Egocentric Video Understanding with Parameter-efficient Adaptation [57.38965505987893]
Ego-VPAは、エゴ中心のビデオタスクに対するパラメータ効率の適応である。
Ego-VPAは、わずか0.84%の学習可能なパラメータで軽量な適応を実現している。
論文 参考訳(メタデータ) (2024-07-28T16:01:32Z) - HiVG: Hierarchical Multimodal Fine-grained Modulation for Visual Grounding [80.85164509232261]
HiVGは多層適応型クロスモーダルブリッジと階層型マルチモーダル低ランク適応(HiLoRA)パラダイムで構成されている。
HiLoRAは、階層的な方法で、クロスモーダルな特徴を浅い層から深い層に適応させることによって、知覚エラーの蓄積を防止する。
論文 参考訳(メタデータ) (2024-04-20T14:57:31Z) - MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [63.14000659130736]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。
まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。
そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文 参考訳(メタデータ) (2023-11-28T17:59:04Z) - Can I Trust Your Answer? Visually Grounded Video Question Answering [88.11169242115416]
本稿では,ビデオ言語理解のための事前学習技術を活用したビデオQAについて検討する。
NExT-GQA - NExT-QAの拡張で、10.5$K$の時間的グラウンドラベルを元のQAペアに結び付ける。
論文 参考訳(メタデータ) (2023-09-04T03:06:04Z) - Reinforcement Learning Friendly Vision-Language Model for Minecraft [31.863271032186038]
クロスモーダルなコントラスト学習フレームワークであるCLIP4MCを提案する。
オープンなタスクに対する本質的な報酬関数として機能する強化学習(RL)フレンドリな視覚言語モデル(VLM)を学習することを目的としている。
提案手法は,ベースラインよりもRLタスクの性能がよいことを示す。
論文 参考訳(メタデータ) (2023-03-19T05:20:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。