論文の概要: A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach
- arxiv url: http://arxiv.org/abs/2203.05243v1
- Date: Thu, 10 Mar 2022 08:58:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-11 13:42:00.380284
- Title: A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach
- Title(参考訳): ビデオにおけるデバイアスされた時相文の接地:データセット、メトリック、およびアプローチ
- Authors: Xiaohan Lan, Yitian Yuan, Xin Wang, Long Chen, Zhi Wang, Lin Ma and
Wenwu Zhu
- Abstract要約: テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
- 参考スコア(独自算出の注目度): 53.727460222955266
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal Sentence Grounding in Videos (TSGV), which aims to ground a natural
language sentence in an untrimmed video, has drawn widespread attention over
the past few years. However, recent studies have found that current benchmark
datasets may have obvious moment annotation biases, enabling several simple
baselines even without training to achieve SOTA performance. In this paper, we
take a closer look at existing evaluation protocols, and find both the
prevailing dataset and evaluation metrics are the devils that lead to
untrustworthy benchmarking. Therefore, we propose to re-organize the two
widely-used datasets, making the ground-truth moment distributions different in
the training and test splits, i.e., out-of-distribution (OOD) test. Meanwhile,
we introduce a new evaluation metric "dR@n,IoU@m" that discounts the basic
recall scores to alleviate the inflating evaluation caused by biased datasets.
New benchmarking results indicate that our proposed evaluation protocols can
better monitor the research progress. Furthermore, we propose a novel
causality-based Multi-branch Deconfounding Debiasing (MDD) framework for
unbiased moment prediction. Specifically, we design a multi-branch deconfounder
to eliminate the effects caused by multiple confounders with causal
intervention. In order to help the model better align the semantics between
sentence queries and video moments, we enhance the representations during
feature encoding. Specifically, for textual information, the query is parsed
into several verb-centered phrases to obtain a more fine-grained textual
feature. For visual information, the positional information has been decomposed
from moment features to enhance representations of moments with diverse
locations. Extensive experiments demonstrate that our proposed approach can
achieve competitive results among existing SOTA approaches and outperform the
base model with great gains.
- Abstract(参考訳): tsgv(temporal sentence grounding in video)は、自然言語文を未編集の動画に固定することを目的としているが、ここ数年、広く注目を集めている。
しかし、最近の研究では、現在のベンチマークデータセットは明らかなモーメント・アノテーションのバイアスがあり、訓練なしでSOTAのパフォーマンスを達成できた。
本稿では,既存の評価プロトコルを詳しく検討し,有望なデータセットと評価指標の両方が信頼できないベンチマークにつながるデビルであることを示す。
そこで本研究では,広く使用されている2つのデータセットを再構成し,トレーニングとテストの分割,すなわちout-of-distribution (ood) テストにおいて基底モーメント分布を異にする手法を提案する。
また,新たな評価指標「dr@n,iou@m」を導入して,基本リコールスコアを割引し,偏りのあるデータセットによる膨らみ評価を緩和する。
新しいベンチマーク結果から,提案する評価プロトコルは,研究進捗をより良く監視できることが示唆された。
さらに,非バイアスモーメント予測のための新しい因果関係に基づくマルチブランチデフレウンディングデバイアス(MDD)フレームワークを提案する。
具体的には、複数の共同創設者による因果的介入による影響を排除するために、マルチブランチ・デコノミーを設計する。
このモデルが文クエリとビデオモーメントのセマンティクスをよりよく一致させるのを助けるために,特徴エンコーディング中の表現を強化する。
具体的には、テキスト情報に対して、クエリを複数の動詞中心のフレーズに解析し、よりきめ細かいテキスト特徴を得る。
視覚情報については、位置情報をモーメント特徴から分解し、多様な位置を持つモーメントの表現を強化する。
広範な実験により,提案手法が既存のsomaアプローチの競争結果を達成し,高い利益率でベースモデルを上回ることを実証した。
関連論文リスト
- Towards Debiasing Frame Length Bias in Text-Video Retrieval via Causal
Intervention [72.12974259966592]
トリミングビデオクリップのトレーニングセットとテストセットのフレーム長差による時間偏差について,一意かつ体系的に検討した。
Epic-Kitchens-100, YouCook2, MSR-VTTデータセットについて, 因果脱バイアス法を提案し, 広範な実験およびアブレーション研究を行った。
論文 参考訳(メタデータ) (2023-09-17T15:58:27Z) - MomentDiff: Generative Video Moment Retrieval from Random to Real [71.40038773943638]
私たちは、MomentDiffという拡散に基づく生成フレームワークを提供しています。
MomentDiffは、ランダムなブラウジングから段階的なローカライゼーションまで、典型的な人間の検索プロセスをシミュレートする。
MomentDiffは3つの公開ベンチマークで最先端の手法を一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2023-07-06T09:12:13Z) - Mitigating Representation Bias in Action Recognition: Algorithms and
Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。
この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。
偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文 参考訳(メタデータ) (2022-09-20T00:30:35Z) - Learning Sample Importance for Cross-Scenario Video Temporal Grounding [30.82619216537177]
本稿では,時間的接地作業に特有の表面バイアスについて検討する。
そこで本研究では,Debiased Temporal Language Localizer (DebiasTLL) と呼ばれる新しい手法を提案する。
我々は、列車/テストデータが均一にソースされるクロスセサリオ時間的グラウンドリングにおいて、提案モデルを評価する。
論文 参考訳(メタデータ) (2022-01-08T15:41:38Z) - Interventional Video Grounding with Dual Contrastive Learning [16.0734337895897]
ビデオグラウンドティングは、与えられたテキストクエリのために、未編集のビデオから瞬間をローカライズすることを目的としている。
本稿では、因果推論の観点から新しいパラダイムを提案し、モデルとデータの背後にある因果関係を明らかにする。
また、テキストとビデオの整合性を改善するために、二重のコントラスト学習アプローチを導入しています。
論文 参考訳(メタデータ) (2021-06-21T12:11:28Z) - A Closer Look at Temporal Sentence Grounding in Videos: Datasets and
Metrics [70.45937234489044]
2つの広く使用されているTSGVデータセット(Charades-STAとActivityNet Captions)を再編成し、トレーニング分割と異なるものにします。
基本的なIoUスコアを校正するために、新しい評価基準「dR@$n$,IoU@$m$」を導入する。
すべての結果は、再編成されたデータセットと新しいメトリクスがTSGVの進捗をよりよく監視できることを示している。
論文 参考訳(メタデータ) (2021-01-22T09:59:30Z) - Reliable Evaluations for Natural Language Inference based on a Unified
Cross-dataset Benchmark [54.782397511033345]
クラウドソースの自然言語推論(NLI)データセットは、アノテーションアーティファクトのような重大なバイアスに悩まされる可能性がある。
14のNLIデータセットと9つの広く使用されているニューラルネットワークベースのNLIモデルを再評価した、新しいクロスデータセットベンチマークを提案する。
提案した評価手法と実験ベースラインは,将来信頼性の高いNLI研究を刺激する基盤となる可能性がある。
論文 参考訳(メタデータ) (2020-10-15T11:50:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。