論文の概要: Empower Words: DualGround for Structured Phrase and Sentence-Level Temporal Grounding
- arxiv url: http://arxiv.org/abs/2510.20244v1
- Date: Thu, 23 Oct 2025 05:53:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.443251
- Title: Empower Words: DualGround for Structured Phrase and Sentence-Level Temporal Grounding
- Title(参考訳): エンパワーワード:構造化フレーズと文レベルテンポラルグラウンドのためのデュアルグラウンド
- Authors: Minseok Kang, Minhyeok Lee, Minjung Kim, Donghyeong Kim, Sangyoun Lee,
- Abstract要約: Video Grounding(VTG)は、時間セグメントを、与えられた自然言語クエリと一致した、長い、トリミングされていないビデオにローカライズすることを目的としている。
既存のアプローチは、すべてのテキストトークンを、異なる意味的役割を無視して、クロスモーダルな注意の中で均一に扱うのが一般的である。
グローバルとローカルのセマンティクスを明確に分離するデュアルブランチアーキテクチャであるDualGroundを提案する。
- 参考スコア(独自算出の注目度): 30.223279362023337
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video Temporal Grounding (VTG) aims to localize temporal segments in long, untrimmed videos that align with a given natural language query. This task typically comprises two subtasks: Moment Retrieval (MR) and Highlight Detection (HD). While recent advances have been progressed by powerful pretrained vision-language models such as CLIP and InternVideo2, existing approaches commonly treat all text tokens uniformly during crossmodal attention, disregarding their distinct semantic roles. To validate the limitations of this approach, we conduct controlled experiments demonstrating that VTG models overly rely on [EOS]-driven global semantics while failing to effectively utilize word-level signals, which limits their ability to achieve fine-grained temporal alignment. Motivated by this limitation, we propose DualGround, a dual-branch architecture that explicitly separates global and local semantics by routing the [EOS] token through a sentence-level path and clustering word tokens into phrase-level units for localized grounding. Our method introduces (1) tokenrole- aware cross modal interaction strategies that align video features with sentence-level and phrase-level semantics in a structurally disentangled manner, and (2) a joint modeling framework that not only improves global sentence-level alignment but also enhances finegrained temporal grounding by leveraging structured phrase-aware context. This design allows the model to capture both coarse and localized semantics, enabling more expressive and context-aware video grounding. DualGround achieves state-of-the-art performance on both Moment Retrieval and Highlight Detection tasks across QVHighlights and Charades- STA benchmarks, demonstrating the effectiveness of disentangled semantic modeling in video-language alignment.
- Abstract(参考訳): Video Temporal Grounding (VTG) は、時間セグメントを、与えられた自然言語クエリと一致した、長い、トリミングされていないビデオにローカライズすることを目的としている。
このタスクは通常、Moment Retrieval(MR)とHighlight Detection(HD)の2つのサブタスクで構成される。
最近の進歩はCLIPやInternVideo2のような強力な事前訓練された視覚言語モデルによって進展しているが、既存のアプローチでは、異なる意味的役割を無視しながら、クロスモーダルな注意の中ですべてのテキストトークンを均一に扱うのが一般的である。
提案手法の限界を検証するために,VTGモデルが[EOS]による大域的意味論を過度に頼りながら,単語レベル信号の有効活用に失敗し,微粒な時間的アライメントを達成できないことを示す制御実験を行った。
この制限によって動機付けられたデュアルブランチアーキテクチャであるDualGroundを提案する。このアーキテクチャは,[EOS]トークンを文レベルパスにルーティングし,単語トークンを局所的な接地のためにフレーズレベル単位にクラスタリングすることで,グローバルとローカルのセマンティクスを明確に分離する。
提案手法では,(1)音声特徴と文レベル・句レベルのセマンティクスを構造的に不整合に整合させるトークン・アウェア・クロスモーダル・インタラクション・ストラテジー,(2)グローバルな文レベルのアライメントを向上するだけでなく,構造化されたフレーズ・アウェア・コンテキストを活用することによって微細な時間的グラウンドメントを向上する共同モデリング・フレームワークを提案する。
この設計により、モデルは粗いセマンティクスと局所化されたセマンティクスの両方をキャプチャし、より表現力が高く、文脈に合ったビデオグラウンドを可能にする。
DualGroundはQVHighlightsとCharades-STAベンチマークによるMoment RetrievalタスクとHighlight Detectionタスクの両方で最先端のパフォーマンスを実現し、ビデオ言語アライメントにおけるアンタングルドセマンティックモデリングの有効性を実証した。
関連論文リスト
- Temporal Grounding as a Learning Signal for Referring Video Object Segmentation [29.646697516547558]
Referring Video Object (RVOS)は、自然言語表現に基づくビデオ内のオブジェクトのセグメンテーションと追跡を目的としており、ビジュアルコンテンツとテキストクエリの正確なアライメントを必要とする。
既存の手法は、主に訓練中にフレームサンプリングとすべての可視物体の監督が区別できないため、意味的ミスアライメントに悩まされることが多い。
私たちは、MeViSベンチマークに基づいて構築されたデータセットであるMeViS-Mを紹介します。
論文 参考訳(メタデータ) (2025-08-16T07:34:43Z) - Collaborative Temporal Consistency Learning for Point-supervised Natural Language Video Localization [129.43937834515688]
我々は,ビデオ言語アライメントを強化するために,新しいコラボラティブ・テンポラル・コンポジション・ラーニング(COTEL)フレームワークを提案する。
具体的には、まずフレームとセグメントレベルの時間一貫性学習(TCL)モジュールを設計し、フレームサリエンシと文-モーメントペア間のセマンティックアライメントをモデル化する。
論文 参考訳(メタデータ) (2025-03-22T05:04:12Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Fine-grained Semantic Alignment Network for Weakly Supervised Temporal
Language Grounding [148.46348699343991]
時間的言語接地は、自然言語記述に基づいてビデオセグメントを未編集ビデオにローカライズすることを目的としている。
既存の弱教師付きメソッドのほとんどは、候補セグメントを生成し、MILベースのフレームワークを通じて、相互アライメントを学ぶ。
我々は、弱い教師付きTLGのための新しい候補のないフレームワーク、細粒度セマンティックアライメントネットワーク(FSAN)を提案する。
論文 参考訳(メタデータ) (2022-10-21T13:10:27Z) - Hierarchical Local-Global Transformer for Temporal Sentence Grounding [58.247592985849124]
本稿では,時間文グラウンドリングのマルチメディア問題について検討する。
与えられた文問合せに従って、トリミングされていないビデオ内の特定のビデオセグメントを正確に決定することを目的としている。
論文 参考訳(メタデータ) (2022-08-31T14:16:56Z) - Self-supervised Learning for Semi-supervised Temporal Language Grounding [84.11582376377471]
時間的言語接地(TLG)は、ビデオ中の特定の意味を含むセグメントの時間的境界をローカライズすることを目的としている。
以前の作業では、大量の手動アノテーションを必要とする完全に教師された設定や、満足のいくパフォーマンスを達成できない弱監督された設定で、このタスクに取り組みました。
アノテーションを限定して高い性能を達成するため,この課題を半教師付き方法で解決し,半教師付きテンポラル言語グラウンドディング(STLG)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-23T16:29:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。