論文の概要: Diversified Augmentation with Domain Adaptation for Debiased Video Temporal Grounding
- arxiv url: http://arxiv.org/abs/2501.06746v2
- Date: Tue, 14 Jan 2025 14:40:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-15 13:29:26.059372
- Title: Diversified Augmentation with Domain Adaptation for Debiased Video Temporal Grounding
- Title(参考訳): Debiased Video Temporal Groundingのためのドメイン適応による多様化
- Authors: Junlong Ren, Gangjian Zhang, Haifeng Sun, Hao Wang,
- Abstract要約: ビデオ(TSGV)における時間文グラウンドングは、時間的バイアスを含む公開TSGVデータセットによる課題に直面している。
本稿では,データ拡張の多様化とドメイン識別を補完する新しいトレーニングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 9.603261923207826
- License:
- Abstract: Temporal sentence grounding in videos (TSGV) faces challenges due to public TSGV datasets containing significant temporal biases, which are attributed to the uneven temporal distributions of target moments. Existing methods generate augmented videos, where target moments are forced to have varying temporal locations. However, since the video lengths of the given datasets have small variations, only changing the temporal locations results in poor generalization ability in videos with varying lengths. In this paper, we propose a novel training framework complemented by diversified data augmentation and a domain discriminator. The data augmentation generates videos with various lengths and target moment locations to diversify temporal distributions. However, augmented videos inevitably exhibit distinct feature distributions which may introduce noise. To address this, we design a domain adaptation auxiliary task to diminish feature discrepancies between original and augmented videos. We also encourage the model to produce distinct predictions for videos with the same text queries but different moment locations to promote debiased training. Experiments on Charades-CD and ActivityNet-CD datasets demonstrate the effectiveness and generalization abilities of our method in multiple grounding structures, achieving state-of-the-art results.
- Abstract(参考訳): ビデオ(TSGV)における時間文グラウンドングは、ターゲットモーメントの不均一な時間的分布に起因する重要な時間的バイアスを含む公開TSGVデータセットによる課題に直面している。
既存の方法では、ターゲットモーメントの時間的位置が異なるように強制される強化ビデオを生成する。
しかし、与えられたデータセットの動画長は小さいため、時間的位置を変えるだけで、長さの異なるビデオでは一般化能力が低下する。
本稿では,多様化したデータ拡張とドメイン識別器を補完する新しいトレーニングフレームワークを提案する。
データ拡張は、時間分布を多様化するために、様々な長さと目標モーメント位置の動画を生成する。
しかし、拡張現実ビデオは必然的にノイズを発生させる可能性のある特徴分布を示す。
そこで本研究では,オリジナルビデオと拡張ビデオの特徴の相違を低減するために,ドメイン適応補助タスクを設計する。
また、同モデルでは、同じテキストクエリで動画の予測を異なるタイミングで生成し、偏りのあるトレーニングを促進するよう推奨する。
Charades-CDおよびActivityNet-CDデータセットの実験により,複数の接地構造における本手法の有効性と一般化能力が実証され,最先端の成果が得られた。
関連論文リスト
- Multi-Modal Domain Adaptation Across Video Scenes for Temporal Video
Grounding [59.599378814835205]
時間的ビデオグラウンドリング(TVG)は、与えられた言語クエリに基づいて、特定のセグメントの時間的境界を未トリミングビデオにローカライズすることを目的としている。
そこで本研究では,対象データからの洞察を取り入れた新たなAMDA手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T07:49:27Z) - SEINE: Short-to-Long Video Diffusion Model for Generative Transition and
Prediction [93.26613503521664]
本稿では、生成遷移と予測に焦点をあてた、短時間から長期のビデオ拡散モデルSEINEを提案する。
テキスト記述に基づく遷移を自動的に生成するランダムマスクビデオ拡散モデルを提案する。
我々のモデルは、コヒーレンスと視覚的品質を保証するトランジションビデオを生成する。
論文 参考訳(メタデータ) (2023-10-31T17:58:17Z) - MomentDiff: Generative Video Moment Retrieval from Random to Real [71.40038773943638]
私たちは、MomentDiffという拡散に基づく生成フレームワークを提供しています。
MomentDiffは、ランダムなブラウジングから段階的なローカライゼーションまで、典型的な人間の検索プロセスをシミュレートする。
MomentDiffは3つの公開ベンチマークで最先端の手法を一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2023-07-06T09:12:13Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Unsupervised Video Domain Adaptation for Action Recognition: A
Disentanglement Perspective [37.45565756522847]
我々は2つの潜在要因からドメイン間ビデオを生成することを検討する。
TranSVAEフレームワークはそのような世代をモデル化するために開発される。
UCF-HMDB、Jester、Epic-Kitchensデータセットの実験は、TranSVAEの有効性と優位性を検証する。
論文 参考訳(メタデータ) (2022-08-15T17:59:31Z) - Can Shuffling Video Benefit Temporal Bias Problem: A Novel Training
Framework for Temporal Grounding [20.185272219985787]
テンポラルグラウンドディングは、意図しないビデオにおいて、与えられた文クエリに意味的に対応する対象のビデオモーメントを見つけることを目的としている。
従来の方法は、視覚的・テクスチャ的セマンティックアライメントに基づいて、ターゲットのモーメント位置を推論するのではなく、トレーニングセットにおけるクエリの時間的バイアスに過度に依存する。
本稿では,シャッフルビデオを用いて時間的バイアス問題に対処し,グラウンド化精度を損なうことなく,グラウンド化モデルを構築するための新しいトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-29T14:11:48Z) - Generating Long Videos of Dynamic Scenes [66.56925105992472]
本稿では、物体の動きを再現する映像生成モデル、カメラ視点の変化、時間とともに現れる新しいコンテンツについて述べる。
よくある障害ケースは、コンテンツが時間的一貫性を提供する誘導バイアスに過度に依存するため、決して変化しないことです。
論文 参考訳(メタデータ) (2022-06-07T16:29:51Z) - Augmented Transformer with Adaptive Graph for Temporal Action Proposal
Generation [79.98992138865042]
TAPGの長期的および局所的時間的コンテキストを利用するための適応グラフネットワーク(ATAG)を備えた拡張トランスを提案する。
具体的には、スニペット動作損失と前部ブロックを装着し、拡張トランスと呼ばれるバニラトランスを強化する。
位置情報と隣接特徴の差異をマイニングすることで局所時間文脈を構築するための適応型グラフ畳み込みネットワーク(gcn)を提案する。
論文 参考訳(メタデータ) (2021-03-30T02:01:03Z) - Self-supervised Temporal Discriminative Learning for Video
Representation Learning [39.43942923911425]
注釈付き大規模ビデオアクションデータセットをトレーニングに使わずに、時間差分の特徴を抽出することは困難である。
本稿では,ビデオに基づく時間識別学習フレームワークを自己指導型で提案する。
論文 参考訳(メタデータ) (2020-08-05T13:36:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。