論文の概要: A Closer Look at Temporal Sentence Grounding in Videos: Datasets and
Metrics
- arxiv url: http://arxiv.org/abs/2101.09028v2
- Date: Wed, 27 Jan 2021 07:19:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-21 01:05:09.237143
- Title: A Closer Look at Temporal Sentence Grounding in Videos: Datasets and
Metrics
- Title(参考訳): ビデオにおける時間的文のグラウンド化:データセットとメトリクス
- Authors: Yitian Yuan, Xiaohan Lan, Long Chen, Wei Liu, Xin Wang, Wenwu Zhu
- Abstract要約: 2つの広く使用されているTSGVデータセット(Charades-STAとActivityNet Captions)を再編成し、トレーニング分割と異なるものにします。
基本的なIoUスコアを校正するために、新しい評価基準「dR@$n$,IoU@$m$」を導入する。
すべての結果は、再編成されたデータセットと新しいメトリクスがTSGVの進捗をよりよく監視できることを示している。
- 参考スコア(独自算出の注目度): 70.45937234489044
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite Temporal Sentence Grounding in Videos (TSGV) has realized impressive
progress over the last few years, current TSGV models tend to capture the
moment annotation biases and fail to take full advantage of multi-modal inputs.
Miraculously, some extremely simple TSGV baselines even without training can
also achieve state-of-the-art performance. In this paper, we first take a
closer look at the existing evaluation protocol, and argue that both the
prevailing datasets and metrics are the devils to cause the unreliable
benchmarking. To this end, we propose to re-organize two widely-used TSGV
datasets (Charades-STA and ActivityNet Captions), and deliberately
\textbf{C}hange the moment annotation \textbf{D}istribution of the test split
to make it different from the training split, dubbed as Charades-CD and
ActivityNet-CD, respectively. Meanwhile, we further introduce a new evaluation
metric "dR@$n$,IoU@$m$" to calibrate the basic IoU scores by penalizing more on
the over-long moment predictions and reduce the inflating performance caused by
the moment annotation biases. Under this new evaluation protocol, we conduct
extensive experiments and ablation studies on eight state-of-the-art TSGV
models. All the results demonstrate that the re-organized datasets and new
metric can better monitor the progress in TSGV, which is still far from
satisfactory. The repository of this work is at
\url{https://github.com/yytzsy/grounding_changing_distribution}.
- Abstract(参考訳): TSGV(Temporal Sentence Grounding in Videos)は、ここ数年で顕著な進歩を遂げてきたが、現在のTSGVモデルは、モーメントのアノテーションバイアスを捉え、マルチモーダル入力を最大限に活用できない傾向にある。
奇跡的なことに、トレーニングなしでも非常に単純なTSGVベースラインは最先端のパフォーマンスを達成できる。
本稿では、まず既存の評価プロトコルを詳しく検討し、一般的なデータセットとメトリクスの両方が信頼性の低いベンチマークの原因となるデビルであると論じる。
この目的のために、広く使われている2つのTSGVデータセット(Charades-STAとActivityNet Captions)を再編成し、それぞれがCharades-CDとActivityNet-CDと呼ばれるトレーニングスプリットとは異なるように、モーメントアノテーションであるtextbf{C}を意図的に変更することを提案する。
また,モーメント・アノメーション・バイアスによる膨らみ特性の低減を図り,モーメント・アノメーション・バイアスによるインフレーション特性の低減を図ることで,基本的なIoUスコアを校正する新たな評価指標「dR@$n$,IoU@$m$」を導入する。
この新たな評価プロトコルでは,8つの最先端TSGVモデルに関する広範な実験とアブレーション研究を行う。
すべての結果は、再編成されたデータセットと新しいメトリクスがTSGVの進捗をよりよく監視できることを示している。
この作業のリポジトリは \url{https://github.com/yytzsy/grounding_changing_distribution} にある。
関連論文リスト
- Temporal Graph Benchmark for Machine Learning on Temporal Graphs [54.52243310226456]
テンポラルグラフベンチマーク(TGB)は、困難で多様なベンチマークデータセットのコレクションである。
各データセットをベンチマークし、共通のモデルのパフォーマンスがデータセット間で大きく異なることを発見した。
TGBは、再現可能でアクセス可能な時間グラフ研究のための自動機械学習パイプラインを提供する。
論文 参考訳(メタデータ) (2023-07-03T13:58:20Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - BERT on a Data Diet: Finding Important Examples by Gradient-Based
Pruning [20.404705741136777]
我々は,GraNdとその推定バージョンであるEL2Nを,データセットの重要な例を見つけるための評価指標として紹介する。
この結果から,GraNd/EL2Nスコアが最も高いサンプルのごく一部を刈り取ることで,テスト精度を維持できるだけでなく,それを超えることを示す。
論文 参考訳(メタデータ) (2022-11-10T14:37:23Z) - From Spectral Graph Convolutions to Large Scale Graph Convolutional
Networks [0.0]
グラフ畳み込みネットワーク(GCN)は、様々なタスクにうまく適用された強力な概念であることが示されている。
古典グラフ理論の関連部分を含むGCNの定義への道を開いた理論を考察する。
論文 参考訳(メタデータ) (2022-07-12T16:57:08Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Networked Time Series Prediction with Incomplete Data [59.45358694862176]
我々は、歴史と未来の両方で欠落した値を持つ不完全なデータでトレーニングできる新しいディープラーニングフレームワークであるNetS-ImpGANを提案する。
3つの実世界のデータセットに対して、異なるパターンと欠落率で広範な実験を行う。
論文 参考訳(メタデータ) (2021-10-05T18:20:42Z) - Time-Series Representation Learning via Temporal and Contextual
Contrasting [14.688033556422337]
時間・文脈コントラスト(TS-TCC)を用いた教師なし時系列表現学習フレームワークを提案する。
第一に、生の時系列データは、弱い、強い拡張を用いて、2つの異なる相関するビューに変換される。
第2に,厳密な横断的予測タスクを設計することにより,頑健な時間的表現を学習するための新しい時間的コントラストモジュールを提案する。
第三に、識別的表現をさらに学習するために、時間的コントラストモジュールからコンテキスト上に構築された文脈的コントラストモジュールを提案する。
論文 参考訳(メタデータ) (2021-06-26T23:56:31Z) - Improving Calibration for Long-Tailed Recognition [68.32848696795519]
このようなシナリオにおけるキャリブレーションとパフォーマンスを改善する2つの方法を提案します。
異なるサンプルによるデータセットバイアスに対して,シフトバッチ正規化を提案する。
提案手法は,複数の長尾認識ベンチマークデータセットに新しいレコードをセットする。
論文 参考訳(メタデータ) (2021-04-01T13:55:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。