論文の概要: Learning Temporal Sentence Grounding From Narrated EgoVideos
- arxiv url: http://arxiv.org/abs/2310.17395v1
- Date: Thu, 26 Oct 2023 13:46:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 20:20:54.344730
- Title: Learning Temporal Sentence Grounding From Narrated EgoVideos
- Title(参考訳): ナレーション付きエゴビデオから時間文の接地学習
- Authors: Kevin Flanagan, Dima Damen, Michael Wray
- Abstract要約: Ego4DとEPIC-Kitchensのデータセットは、特に長いビデオの中で、よりきめ細やかな文を提供する。
我々は,ナレーションとそれに対応する粗いナレーションタイムスタンプのみを用いて,これらのデータセットの文を学習する手法を開発した。
そこで本稿では,テキストコンディショニングによる時間的接地訓練のために,クリップを人工的にマージする手法を提案する。
- 参考スコア(独自算出の注目度): 26.55264440438635
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The onset of long-form egocentric datasets such as Ego4D and EPIC-Kitchens
presents a new challenge for the task of Temporal Sentence Grounding (TSG).
Compared to traditional benchmarks on which this task is evaluated, these
datasets offer finer-grained sentences to ground in notably longer videos. In
this paper, we develop an approach for learning to ground sentences in these
datasets using only narrations and their corresponding rough narration
timestamps. We propose to artificially merge clips to train for temporal
grounding in a contrastive manner using text-conditioning attention. This Clip
Merging (CliMer) approach is shown to be effective when compared with a high
performing TSG method -- e.g. mean R@1 improves from 3.9 to 5.7 on Ego4D and
from 10.7 to 13.0 on EPIC-Kitchens. Code and data splits available from:
https://github.com/keflanagan/CliMer
- Abstract(参考訳): Ego4D や EPIC-Kitchens のような長めのエゴセントリックなデータセットの出現は、テンポラル・センテンス・グラウンディング(TSG)のタスクに新たな課題をもたらす。
このタスクを評価する従来のベンチマークと比較すると、これらのデータセットは特に長いビデオにおいて、よりきめ細かい文を提供する。
本稿では,ナレーションとそれに対応する粗いナレーションタイムスタンプのみを用いて,これらのデータセットの文を学習するためのアプローチを開発する。
本研究では,テキストコンディショニングによる時間的接地訓練のためのクリップを人工的にマージすることを提案する。
このClip Merging(CliMer)アプローチは、高性能なTSG法と比較すると有効であることが示され、例えば、R@1はEgo4Dでは3.9から5.7、EPIC-Kitchensでは10.7から13.0に改善されている。
コードとデータの分割: https://github.com/keflanagan/climer
関連論文リスト
- ObjectNLQ @ Ego4D Episodic Memory Challenge 2024 [51.57555556405898]
本稿では,CVPR 2024におけるEgo4D Episodic Memory Benchmarkの自然言語クエリトラックとゴールステップトラックについて紹介する。
どちらの課題も、テキストクエリを使って長いビデオシーケンス内のアクションをローカライズする必要がある。
我々は、オブジェクトブランチを組み込んだ新しいアプローチObjectNLQを導入し、ビデオ表現を詳細なオブジェクト情報で拡張する。
論文 参考訳(メタデータ) (2024-06-22T07:57:58Z) - X-MIC: Cross-Modal Instance Conditioning for Egocentric Action Generalization [56.75782714530429]
我々はX-MICと呼ぶクロスモーダル適応フレームワークを提案する。
私たちのパイプラインは、凍結したテキストの埋め込みを、共有された埋め込み空間内で、それぞれのエゴセントリックなビデオにアライメントすることを学びました。
これにより、各エゴセントリックビデオへのテキスト埋め込みのアライメントが向上し、データセットの一般化が大幅に向上する。
論文 参考訳(メタデータ) (2024-03-28T19:45:35Z) - Multi-Sentence Grounding for Long-term Instructional Video [63.27905419718045]
大規模インストラクショナルデータセットを記述するための,自動でスケーラブルなパイプラインを確立することを目的としている。
複数の記述ステップを監督する高品質なビデオテキストデータセット、HowToStepを構築した。
論文 参考訳(メタデータ) (2023-12-21T17:28:09Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - MAD: A Scalable Dataset for Language Grounding in Videos from Movie
Audio Descriptions [109.84031235538002]
我々は、既存のビデオデータセットをテキストアノテーションで拡張するパラダイムから外れた、新しいベンチマークであるMAD(Movie Audio Descriptions)を提示する。
MADには1200時間以上のビデオに接地された384,000以上の自然言語文が含まれており、現在診断されているビデオ言語接地データセットのバイアスが大幅に減少している。
論文 参考訳(メタデータ) (2021-12-01T11:47:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。