論文の概要: HERO: Hierarchical Embedding-Refinement for Open-Vocabulary Temporal Sentence Grounding in Videos
- arxiv url: http://arxiv.org/abs/2603.06732v1
- Date: Fri, 06 Mar 2026 04:10:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:13.003359
- Title: HERO: Hierarchical Embedding-Refinement for Open-Vocabulary Temporal Sentence Grounding in Videos
- Title(参考訳): HERO:ビデオにおける開語彙時間文接地のための階層的埋め込み制限
- Authors: Tingting Han, Xinsong Tao, Yufei Yin, Min Tan, Sicheng Zhao, Zhou Yu,
- Abstract要約: ビデオにおける時間的センテンスグラウンドは、与えられた自然言語クエリに対応するビデオのセグメントを時間的にローカライズすることを目的としている。
従来のアプローチはクローズド・ボキャブラリ・セッティングの下で動作し、新しい言語表現や多様な言語表現を含む現実世界のクエリに一般化する能力を制限する。
そこで我々は,Open-Vocabulary TSGV (OV-TSGV)タスクを導入し,現実的な語彙シフトとパラフレーズ変動をシミュレートする最初の専用ベンチマークを構築した。
- 参考スコア(独自算出の注目度): 29.677489003907095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal Sentence Grounding in Videos (TSGV) aims to temporally localize segments of a video that correspond to a given natural language query. Despite recent progress, most existing TSGV approaches operate under closed-vocabulary settings, limiting their ability to generalize to real-world queries involving novel or diverse linguistic expressions. To bridge this critical gap, we introduce the Open-Vocabulary TSGV (OV-TSGV) task and construct the first dedicated benchmarks--Charades-OV and ActivityNet-OV--that simulate realistic vocabulary shifts and paraphrastic variations. These benchmarks facilitate systematic evaluation of model generalization beyond seen training concepts. To tackle OV-TSGV, we propose HERO(Hierarchical Embedding-Refinement for Open-Vocabulary grounding), a unified framework that leverages hierarchical linguistic embeddings and performs parallel cross-modal refinement. HERO jointly models multi-level semantics and enhances video-language alignment via semantic-guided visual filtering and contrastive masked text refinement. Extensive experiments on both standard and open vocabulary benchmarks demonstrate that HERO consistently surpasses state-of-the-art methods, particularly under open-vocabulary scenarios, validating its strong generalization capability and underscoring the significance of OV-TSGV as a new research direction.
- Abstract(参考訳): TSGV(Temporal Sentence Grounding in Videos)は、ある自然言語クエリに対応するビデオのセグメントを時間的にローカライズすることを目的としている。
最近の進歩にもかかわらず、ほとんどの既存のTSGVアプローチはクローズド・ボキャブラリ・セッティングの下で動作し、新しい言語表現や多様な言語表現を含む現実世界のクエリに一般化する能力を制限する。
この重要なギャップを埋めるために、我々はOpen-Vocabulary TSGV (OV-TSGV)タスクを導入し、現実的な語彙シフトとパラフレーズ変動をシミュレートする最初の専用ベンチマーク-Charades-OVとActivityNet-OVを構築する。
これらのベンチマークは、見いだされたトレーニング概念を超えたモデル一般化の体系的評価を促進する。
OV-TSGVに取り組むために,階層型言語埋め込みを活用し,並列なクロスモーダル改良を行う統一フレームワークHERO(Hierarchical Embedding-Refinement for Open-Vocabulary Grounding)を提案する。
HEROは、マルチレベルセマンティクスを共同でモデル化し、セマンティックガイド付きビジュアルフィルタリングとコントラッシブマスク付きテキストリファインメントによるビデオ言語アライメントを強化する。
標準ボキャブラリベンチマークおよびオープンボキャブラリベンチマークの広範な実験により、HEROは最先端の手法、特にオープンボキャブラリシナリオにおいて一貫して超越し、その強力な一般化能力を検証し、新しい研究方向としてのOV-TSGVの重要性を裏付けることを示した。
関連論文リスト
- Empower Words: DualGround for Structured Phrase and Sentence-Level Temporal Grounding [30.223279362023337]
Video Grounding(VTG)は、時間セグメントを、与えられた自然言語クエリと一致した、長い、トリミングされていないビデオにローカライズすることを目的としている。
既存のアプローチは、すべてのテキストトークンを、異なる意味的役割を無視して、クロスモーダルな注意の中で均一に扱うのが一般的である。
グローバルとローカルのセマンティクスを明確に分離するデュアルブランチアーキテクチャであるDualGroundを提案する。
論文 参考訳(メタデータ) (2025-10-23T05:53:01Z) - Constrained Prompt Enhancement for Improving Zero-Shot Generalization of Vision-Language Models [57.357091028792325]
ウェブスケールのデータに基づいて事前訓練された視覚言語モデル(VLM)は、ゼロショットの一般化を約束するが、しばしば意味的ミスアライメントに悩まされる。
視覚・テクストアライメントを改善するために,制約付きプロンプトエンハンスメント(CPE)法を提案する。
提案手法はTGSSG(Topology-Guided Synonymous Semantic Generation)とCADRS(Calegory-Agnostic Discriminative Region Selection)の2つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-08-24T15:45:22Z) - LLMs Meet VLMs: Boost Open Vocabulary Object Detection with Fine-grained
Descriptors [58.75140338866403]
DVDetはディスクリプタ強化オープン語彙検出器である。
局所埋め込みをイメージライクな表現に変換することで、一般的なオープンな語彙検出トレーニングに直接統合することができる。
複数の大規模ベンチマークに対する大規模な実験により、DVDetは最先端技術よりも大きなマージンで一貫して優れていたことが示されている。
論文 参考訳(メタデータ) (2024-02-07T07:26:49Z) - Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Grounding [108.79026216923984]
ビデオグラウンドイングは、入力テキストクエリに対応するビデオ内の時間セクションをローカライズすることを目的としている。
本稿では,現在のビデオグラウンドリング手法において,オープン語彙時空間ビデオグラウンドニングタスクを導入することにより,限界に対処する。
論文 参考訳(メタデータ) (2023-12-31T13:53:37Z) - OV-VG: A Benchmark for Open-Vocabulary Visual Grounding [33.02137080950678]
この研究は、新規で挑戦的なオープンボキャブラリ視覚タスクを導入している。
包括的な目的は、言語記述と新しいオブジェクトのローカライゼーションの関連を確立することである。
我々は、7,272 OV-VG画像と1,000 OV-PL画像を含むベンチマークをキュレートした。
論文 参考訳(メタデータ) (2023-10-22T17:54:53Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - The Elements of Temporal Sentence Grounding in Videos: A Survey and
Future Directions [60.54191298092136]
ビデオの時間文グラウンド(TSGV)は、意味不明のビデオから言語クエリに対応する時間モーメントを検索することを目的としている。
本調査では,TSGVの基本概念と今後の研究方向性について概説する。
論文 参考訳(メタデータ) (2022-01-20T09:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。