論文の概要: A Simple Yet Effective Method for Video Temporal Grounding with
Cross-Modality Attention
- arxiv url: http://arxiv.org/abs/2009.11232v1
- Date: Wed, 23 Sep 2020 16:03:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-10-15 16:18:46.732559
- Title: A Simple Yet Effective Method for Video Temporal Grounding with
Cross-Modality Attention
- Title(参考訳): クロスモダリティを考慮した簡易かつ効果的な映像時空間接地法
- Authors: Binjie Zhang, Yu Li, Chun Yuan, Dejing Xu, Pin Jiang, Ying Shan
- Abstract要約: 言語誘導ビデオの時間的グラウンド化の課題は、検索文に対応する特定のビデオクリップを、未トリミングビデオでローカライズすることである。
直感的な構造設計が可能な単純な2分岐クロスモダリティアテンション(CMA)モジュールを提案する。
さらに,アノテーションバイアスの影響を緩和し,時間的接地精度を向上させるタスク固有回帰損失関数を導入する。
- 参考スコア(独自算出の注目度): 31.218804432716702
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of language-guided video temporal grounding is to localize the
particular video clip corresponding to a query sentence in an untrimmed video.
Though progress has been made continuously in this field, some issues still
need to be resolved. First, most of the existing methods rely on the
combination of multiple complicated modules to solve the task. Second, due to
the semantic gaps between the two different modalities, aligning the
information at different granularities (local and global) between the video and
the language is significant, which is less addressed. Last, previous works do
not consider the inevitable annotation bias due to the ambiguities of action
boundaries. To address these limitations, we propose a simple two-branch
Cross-Modality Attention (CMA) module with intuitive structure design, which
alternatively modulates two modalities for better matching the information both
locally and globally. In addition, we introduce a new task-specific regression
loss function, which improves the temporal grounding accuracy by alleviating
the impact of annotation bias. We conduct extensive experiments to validate our
method, and the results show that just with this simple model, it can
outperform the state of the arts on both Charades-STA and ActivityNet Captions
datasets.
- Abstract(参考訳): 言語誘導ビデオテンポラリグルーニングのタスクは、クエリ文に対応する特定のビデオクリップを未トリミングビデオにローカライズすることである。
この分野では進歩が続いているが、いくつかの問題がまだ解決する必要がある。
まず、既存のメソッドのほとんどは、タスクを解決するために複数の複雑なモジュールの組み合わせに依存している。
第二に、2つの異なるモダリティ間の意味的ギャップのため、ビデオと言語の間に異なる粒度(ローカルとグローバル)で情報を整列させることは重要であり、対処は少ない。
最後に、以前の研究では、アクション境界の曖昧さのために避けられないアノテーションバイアスを考慮していない。
これらの制約に対処するために,直感的な構造設計を施した簡易な2分岐型クロスモダリティ・アテンション(cma)モジュールを提案する。
さらに,アノテーションバイアスの影響を軽減し,時間的接地精度を向上させるタスク固有回帰損失関数を提案する。
提案手法の有効性を検証するための広範な実験を行い,この単純なモデルにより,Charades-STAとActivityNet Captionsの両方のデータセットにおいて,芸術の状態を上回り得ることを示す。
関連論文リスト
- Multi-scale 2D Temporal Map Diffusion Models for Natural Language Video
Localization [85.85582751254785]
この問題に対処するための新しいアプローチをNLVLに提示する。
本手法は, 条件付きデノナイジング拡散プロセスによるグローバル2次元時間マップの直接生成を含む。
提案手法は,クエリとビデオデータの相互作用を様々な時間スケールで効果的にカプセル化する。
論文 参考訳(メタデータ) (2024-01-16T09:33:29Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Hierarchical Local-Global Transformer for Temporal Sentence Grounding [58.247592985849124]
本稿では,時間文グラウンドリングのマルチメディア問題について検討する。
与えられた文問合せに従って、トリミングされていないビデオ内の特定のビデオセグメントを正確に決定することを目的としている。
論文 参考訳(メタデータ) (2022-08-31T14:16:56Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - Hierarchical Deep Residual Reasoning for Temporal Moment Localization [48.108468456043994]
ビデオと文を異なる意味を持つマルチレベル表現に分解する階層的深層残響推論(HDRR)モデルを提案する。
また,機能融合のための簡易かつ効果的なRes-BiGRUを設計し,自己適応的に有用な情報を把握できる。
論文 参考訳(メタデータ) (2021-10-31T07:13:34Z) - End-to-End Dense Video Grounding via Parallel Regression [30.984657885692553]
ビデオグラウンドイングは、言語クエリが与えられた未トリミングビデオに対応するビデオモーメントをローカライズすることを目的としている。
本稿では,Transformer-alike Architecture (PRVG) を再構成することで,エンドツーエンドの並列デコーディングパラダイムを提案する。
設計の単純さのおかげで、私たちのPRVGフレームワークは異なるテストスキームに適用できます。
論文 参考訳(メタデータ) (2021-09-23T10:03:32Z) - Cross-Sentence Temporal and Semantic Relations in Video Activity
Localisation [79.50868197788773]
我々は、クロスセンスリレーショナルマイニングを導入して、より正確な教師付きソリューションを開発する。
本稿では,(1)トリミング順序付けと(2)ビデオ活動の段落記述における文間の意味的一貫性の2つの横断的関係性制約について検討する。
2つのパブリックなアクティビティローカライゼーションデータセットの実験は、最先端の弱い教師付き手法に対する我々のアプローチの利点を示している。
論文 参考訳(メタデータ) (2021-07-23T20:04:01Z) - Frame-wise Cross-modal Matching for Video Moment Retrieval [32.68921139236391]
ビデオモーメント検索は、与えられた言語クエリのためにビデオ中の瞬間を検索するターゲットである。
本課題は,1)未編集ビデオにおける関連モーメントのローカライズの必要性,2)テキストクエリとビデオコンテンツ間のセマンティックなギャップを埋めることである。
本稿では,対話モデルに基づいて時間境界を予測できる注意的相互関連マッチングモデルを提案する。
論文 参考訳(メタデータ) (2020-09-22T10:25:41Z) - Learning Modality Interaction for Temporal Sentence Localization and
Event Captioning in Videos [76.21297023629589]
そこで本稿では,ビデオの各対のモダリティの相補的情報をよりよく活用するために,ペアワイズなモダリティ相互作用を学習するための新しい手法を提案する。
提案手法は,4つの標準ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-28T12:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。