論文の概要: CVA: Context-aware Video-text Alignment for Video Temporal Grounding
- arxiv url: http://arxiv.org/abs/2603.24934v1
- Date: Thu, 26 Mar 2026 01:53:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.04437
- Title: CVA: Context-aware Video-text Alignment for Video Temporal Grounding
- Title(参考訳): CVA:ビデオ時間グラウンドのためのコンテキスト対応ビデオテキストアライメント
- Authors: Sungho Moon, Seunghun Lee, Jiwan Seo, Sunghoon Im,
- Abstract要約: 時間に敏感なビデオテキストアライメントを実現するための新しいフレームワークであるCVA(Context-aware Video-text Alignment)を提案する。
まず、意味的に無関係なコンテンツだけが混在することを保証する新しいデータ拡張戦略であるQCD(Query-aware Context Diversification)を提案する。
第二に、文脈不変境界識別(CBD)損失は、時間的境界の挑戦において意味的一貫性を強制する対照的な損失である。
第3に、窓付き自己注意と双方向交差を組み合わせた階層型アーキテクチャであるContext-enhanced Transformer (CTE)を導入する。
- 参考スコア(独自算出の注目度): 16.546053936240362
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Context-aware Video-text Alignment (CVA), a novel framework to address a significant challenge in video temporal grounding: achieving temporally sensitive video-text alignment that remains robust to irrelevant background context. Our framework is built on three key components. First, we propose Query-aware Context Diversification (QCD), a new data augmentation strategy that ensures only semantically unrelated content is mixed in. It builds a video-text similarity-based pool of replacement clips to simulate diverse contexts while preventing the ``false negative" caused by query-agnostic mixing. Second, we introduce the Context-invariant Boundary Discrimination (CBD) loss, a contrastive loss that enforces semantic consistency at challenging temporal boundaries, making their representations robust to contextual shifts and hard negatives. Third, we introduce the Context-enhanced Transformer Encoder (CTE), a hierarchical architecture that combines windowed self-attention and bidirectional cross-attention with learnable queries to capture multi-scale temporal context. Through the synergy of these data-centric and architectural enhancements, CVA achieves state-of-the-art performance on major VTG benchmarks, including QVHighlights and Charades-STA. Notably, our method achieves a significant improvement of approximately 5 points in Recall@1 (R1) scores over state-of-the-art methods, highlighting its effectiveness in mitigating false negatives.
- Abstract(参考訳): 本研究では,文脈対応型ビデオテキストアライメント(CVA)を提案する。これは,時間的に敏感な映像テキストアライメントの実現という,時間的に関係のない背景コンテキストに頑健な映像テキストアライメントを実現するという,ビデオ時間的グラウンドメントにおいて重要な課題に対処する新しいフレームワークである。
私たちのフレームワークは3つの重要なコンポーネントで構成されています。
まず、意味的に無関係なコンテンツのみを混在させる新しいデータ拡張戦略であるクエリ対応コンテキスト多様化(QCD)を提案する。
ビデオテキストの類似性に基づく置換クリップのプールを構築し、さまざまなコンテキストをシミュレートすると同時に、クエリ非依存の混合による‘false negative’を防ぐ。
第二に、文脈不変境界識別(CBD)損失は、時間的境界の挑戦において意味的一貫性を強制する対照的な損失であり、それらの表現を文脈的シフトや強陰性に頑健にする。
第3に、コンテキスト拡張トランスフォーマーエンコーダ(CTE)を導入し、ウィンドウ付き自己アテンションと双方向のクロスアテンションを学習可能なクエリと組み合わせ、マルチスケールの時間的コンテキストをキャプチャする階層アーキテクチャを提案する。
これらのデータ中心およびアーキテクチャ強化のシナジーを通じて、CVAは、QVHighlightsやCharades-STAを含む主要なVTGベンチマークで最先端のパフォーマンスを達成する。
特に,Recall@1(R1)スコアが最先端手法よりも約5ポイント向上し,偽陰性を緩和する効果が示された。
関連論文リスト
- GranAlign: Granularity-Aware Alignment Framework for Zero-Shot Video Moment Retrieval [12.668753075288308]
ゼロショットビデオモーメント検索(ゼロショットビデオモーメント検索、ZVMR)は、タスク固有のトレーニングデータに頼ることなく、自然言語クエリを用いて、未トリミングビデオ内の時間モーメントをローカライズするタスクである。
ZVMRの以前の研究は、共同空間におけるビデオと言語を表す高品質な事前訓練知識を活用して、アライメントの実現を試みた。
我々は、粗い意味表現と微妙な意味表現のギャップを埋める、Granularity-Aware Alignment (GranAlign)と呼ばれるトレーニング不要のフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-02T06:04:58Z) - AI Powered High Quality Text to Video Generation with Enhanced Temporal Consistency [0.0]
我々は,高忠実度テキストとビデオ合成のための時間的拡散認識モデルと合成シーン理解を統合した,新しい階層型フレームワークMOVAIを提案する。
標準ベンチマークの実験では、MOVAIの最先端性能、LPIPSの15.3%、FVDの12.7%、既存手法の18.9%の改善が示されている。
論文 参考訳(メタデータ) (2025-10-30T18:46:59Z) - GMMFormer v2: An Uncertainty-aware Framework for Partially Relevant Video Retrieval [60.70901959953688]
本稿では,PRVRのための不確実性認識フレームワークであるGMMFormer v2を提案する。
クリップモデリングでは,新しい時間的統合モジュールを用いた強力なベースラインGMMFormerを改良する。
そこで本研究では,テキスト・クリップの微調整に最適なマッチング損失を提案する。
論文 参考訳(メタデータ) (2024-05-22T16:55:31Z) - RIGID: Recurrent GAN Inversion and Editing of Real Face Videos [73.97520691413006]
GANのインバージョンは、実画像に強力な編集可能性を適用するのに不可欠である。
既存のビデオフレームを個別に反転させる手法は、時間の経過とともに望ましくない一貫性のない結果をもたらすことが多い。
我々は、textbfRecurrent vtextbfIdeo textbfGAN textbfInversion and etextbfDiting (RIGID) という統合されたリカレントフレームワークを提案する。
本フレームワークは,入力フレーム間の固有コヒーレンスをエンドツーエンドで学習する。
論文 参考訳(メタデータ) (2023-08-11T12:17:24Z) - Video Referring Expression Comprehension via Transformer with
Content-aware Query [60.89442448993627]
ビデオ参照表現(REC)は、自然言語表現によって参照されるビデオフレーム内の対象物をローカライズすることを目的としている。
現在のクエリ設計はサブオプティマであり、2つの欠点に悩まされている。
フレーム全体に一定の数の学習可能なバウンディングボックスを設置し,実りある手がかりを提供するために,アライメントされた領域特徴を用いる。
論文 参考訳(メタデータ) (2022-10-06T14:45:41Z) - Correspondence Matters for Video Referring Expression Comprehension [64.60046797561455]
ビデオ参照表現(REC)は、文章に記述された参照オブジェクトをビデオフレーム内の視覚領域にローカライズすることを目的としている。
既存の手法では,1)ビデオフレーム間の非一貫性な局所化結果,2)参照オブジェクトとコンテキストオブジェクトの混同という2つの問題に悩まされている。
本稿では、フレーム間およびクロスモーダルの両方で密接な関連性を明確に強化する新しいデュアル対応ネットワーク(DCNet)を提案する。
論文 参考訳(メタデータ) (2022-07-21T10:31:39Z) - Co-Grounding Networks with Semantic Attention for Referring Expression
Comprehension in Videos [96.85840365678649]
エレガントなワンステージの枠組みで動画の表現理解を参照する問題に取り組みます。
意味的注意学習により単フレーム接地精度を高め、クロスフレーム接地一貫性を向上させます。
私たちのモデルは、RefCOCOデータセットのパフォーマンス改善によって示される、画像の表現理解の参照にも適用できます。
論文 参考訳(メタデータ) (2021-03-23T06:42:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。