論文の概要: Can Shuffling Video Benefit Temporal Bias Problem: A Novel Training
Framework for Temporal Grounding
- arxiv url: http://arxiv.org/abs/2207.14698v1
- Date: Fri, 29 Jul 2022 14:11:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-01 13:03:04.653836
- Title: Can Shuffling Video Benefit Temporal Bias Problem: A Novel Training
Framework for Temporal Grounding
- Title(参考訳): 時間的バイアス問題にビデオベネフィットを埋める: 時間的接地のための新しいトレーニングフレームワーク
- Authors: Jiachang Hao, Haifeng Sun, Pengfei Ren, Jingyu Wang, Qi Qi and Jianxin
Liao
- Abstract要約: テンポラルグラウンドディングは、意図しないビデオにおいて、与えられた文クエリに意味的に対応する対象のビデオモーメントを見つけることを目的としている。
従来の方法は、視覚的・テクスチャ的セマンティックアライメントに基づいて、ターゲットのモーメント位置を推論するのではなく、トレーニングセットにおけるクエリの時間的バイアスに過度に依存する。
本稿では,シャッフルビデオを用いて時間的バイアス問題に対処し,グラウンド化精度を損なうことなく,グラウンド化モデルを構築するための新しいトレーニングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 20.185272219985787
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Temporal grounding aims to locate a target video moment that semantically
corresponds to the given sentence query in an untrimmed video. However, recent
works find that existing methods suffer a severe temporal bias problem. These
methods do not reason the target moment locations based on the visual-textual
semantic alignment but over-rely on the temporal biases of queries in training
sets. To this end, this paper proposes a novel training framework for grounding
models to use shuffled videos to address temporal bias problem without losing
grounding accuracy. Our framework introduces two auxiliary tasks, cross-modal
matching and temporal order discrimination, to promote the grounding model
training. The cross-modal matching task leverages the content consistency
between shuffled and original videos to force the grounding model to mine
visual contents to semantically match queries. The temporal order
discrimination task leverages the difference in temporal order to strengthen
the understanding of long-term temporal contexts. Extensive experiments on
Charades-STA and ActivityNet Captions demonstrate the effectiveness of our
method for mitigating the reliance on temporal biases and strengthening the
model's generalization ability against the different temporal distributions.
Code is available at https://github.com/haojc/ShufflingVideosForTSG.
- Abstract(参考訳): 時間的接地(temporal grounding)は、与えられた文クエリに意味的に対応するターゲットビデオモーメントを、未トリミングビデオで見つけることを目的としている。
しかし、近年の研究では、既存の手法が深刻な時間バイアスに悩まされていることが判明している。
これらの手法は、視覚とテクスチャのセマンティックアライメントに基づいて目標モーメント位置を推論するのではなく、トレーニングセットにおけるクエリの時間的バイアスを過度に反映する。
そこで本稿では,時間バイアス問題に対処するためにシャッフルビデオを用いた接地モデルを構築するための新しい学習フレームワークを提案する。
本フレームワークは,2つの補助的タスクであるクロスモーダルマッチングと時間的順序識別を導入し,基礎モデルトレーニングを促進する。
クロスモーダルマッチングタスクは、シャッフルされたビデオとオリジナルビデオ間のコンテンツ一貫性を活用して、視覚コンテンツのマイニングを視覚的にクエリにマッチさせる。
時間順識別タスクは、時間順の差異を利用して、長期的な時間的文脈の理解を強化する。
Charades-STAとActivityNet Captionsの大規模な実験は、時間的バイアスへの依存を緩和し、異なる時間的分布に対するモデルの一般化能力を強化する方法の有効性を示す。
コードはhttps://github.com/haojc/ShufflingVideosForTSGで公開されている。
関連論文リスト
- Diversified Augmentation with Domain Adaptation for Debiased Video Temporal Grounding [9.603261923207826]
ビデオ(TSGV)における時間文グラウンドングは、時間的バイアスを含む公開TSGVデータセットによる課題に直面している。
本稿では,データ拡張の多様化とドメイン識別を補完する新しいトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-12T08:04:52Z) - Siamese Learning with Joint Alignment and Regression for Weakly-Supervised Video Paragraph Grounding [70.31050639330603]
ビデオ段落の接頭辞は、意味的関係と時間的順序を持つ複数の文を、トリミングされていないビデオからローカライズすることを目的としている。
既存のVPGアプローチは、かなりの数の時間ラベルに大きく依存している。
我々は、時間的アノテーションの必要性を排除するために、Wakly-Supervised Video paragraph Grounding (WSVPG)を導入し、探索する。
論文 参考訳(メタデータ) (2024-03-18T04:30:31Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Fine-grained Semantic Alignment Network for Weakly Supervised Temporal
Language Grounding [148.46348699343991]
時間的言語接地は、自然言語記述に基づいてビデオセグメントを未編集ビデオにローカライズすることを目的としている。
既存の弱教師付きメソッドのほとんどは、候補セグメントを生成し、MILベースのフレームワークを通じて、相互アライメントを学ぶ。
我々は、弱い教師付きTLGのための新しい候補のないフレームワーク、細粒度セマンティックアライメントネットワーク(FSAN)を提案する。
論文 参考訳(メタデータ) (2022-10-21T13:10:27Z) - Contrastive Language-Action Pre-training for Temporal Localization [64.34349213254312]
ロングフォームビデオ理解には、時間的に活動や言語をローカライズできるアプローチが必要である。
これらの制限は、クラスアノテーションによって管理される時間的にトリミングされたビデオの大きなデータセットを事前トレーニングすることで対処できる。
本研究では,アクセプションの形で活動,背景ビデオクリップ,言語間の視覚・言語的関係を捉えるために,マスク付きコントラスト学習損失を導入する。
論文 参考訳(メタデータ) (2022-04-26T13:17:50Z) - Learning Sample Importance for Cross-Scenario Video Temporal Grounding [30.82619216537177]
本稿では,時間的接地作業に特有の表面バイアスについて検討する。
そこで本研究では,Debiased Temporal Language Localizer (DebiasTLL) と呼ばれる新しい手法を提案する。
我々は、列車/テストデータが均一にソースされるクロスセサリオ時間的グラウンドリングにおいて、提案モデルを評価する。
論文 参考訳(メタデータ) (2022-01-08T15:41:38Z) - End-to-End Dense Video Grounding via Parallel Regression [30.984657885692553]
ビデオグラウンドイングは、言語クエリが与えられた未トリミングビデオに対応するビデオモーメントをローカライズすることを目的としている。
本稿では,Transformer-alike Architecture (PRVG) を再構成することで,エンドツーエンドの並列デコーディングパラダイムを提案する。
設計の単純さのおかげで、私たちのPRVGフレームワークは異なるテストスキームに適用できます。
論文 参考訳(メタデータ) (2021-09-23T10:03:32Z) - Cross-Sentence Temporal and Semantic Relations in Video Activity
Localisation [79.50868197788773]
我々は、クロスセンスリレーショナルマイニングを導入して、より正確な教師付きソリューションを開発する。
本稿では,(1)トリミング順序付けと(2)ビデオ活動の段落記述における文間の意味的一貫性の2つの横断的関係性制約について検討する。
2つのパブリックなアクティビティローカライゼーションデータセットの実験は、最先端の弱い教師付き手法に対する我々のアプローチの利点を示している。
論文 参考訳(メタデータ) (2021-07-23T20:04:01Z) - A Simple Yet Effective Method for Video Temporal Grounding with
Cross-Modality Attention [31.218804432716702]
言語誘導ビデオの時間的グラウンド化の課題は、検索文に対応する特定のビデオクリップを、未トリミングビデオでローカライズすることである。
直感的な構造設計が可能な単純な2分岐クロスモダリティアテンション(CMA)モジュールを提案する。
さらに,アノテーションバイアスの影響を緩和し,時間的接地精度を向上させるタスク固有回帰損失関数を導入する。
論文 参考訳(メタデータ) (2020-09-23T16:03:00Z) - Look Closer to Ground Better: Weakly-Supervised Temporal Grounding of
Sentence in Video [53.69956349097428]
未トリミングビデオと問合せ文が与えられた場合、我々のゴールは、問合せ文に意味的に対応するビデオ内の時間セグメントをローカライズすることである。
本稿では,この問題を粗大な方法で解くための2段階モデルを提案する。
論文 参考訳(メタデータ) (2020-01-25T13:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。