論文の概要: Look Closer to Ground Better: Weakly-Supervised Temporal Grounding of
Sentence in Video
- arxiv url: http://arxiv.org/abs/2001.09308v1
- Date: Sat, 25 Jan 2020 13:07:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-07 00:17:57.264064
- Title: Look Closer to Ground Better: Weakly-Supervised Temporal Grounding of
Sentence in Video
- Title(参考訳): 動画で見る、より身近に近づいた! 動画のテンポラリなグラウンド
- Authors: Zhenfang Chen, Lin Ma, Wenhan Luo, Peng Tang, Kwan-Yee K. Wong
- Abstract要約: 未トリミングビデオと問合せ文が与えられた場合、我々のゴールは、問合せ文に意味的に対応するビデオ内の時間セグメントをローカライズすることである。
本稿では,この問題を粗大な方法で解くための2段階モデルを提案する。
- 参考スコア(独自算出の注目度): 53.69956349097428
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study the problem of weakly-supervised temporal grounding
of sentence in video. Specifically, given an untrimmed video and a query
sentence, our goal is to localize a temporal segment in the video that
semantically corresponds to the query sentence, with no reliance on any
temporal annotation during training. We propose a two-stage model to tackle
this problem in a coarse-to-fine manner. In the coarse stage, we first generate
a set of fixed-length temporal proposals using multi-scale sliding windows, and
match their visual features against the sentence features to identify the
best-matched proposal as a coarse grounding result. In the fine stage, we
perform a fine-grained matching between the visual features of the frames in
the best-matched proposal and the sentence features to locate the precise frame
boundary of the fine grounding result. Comprehensive experiments on the
ActivityNet Captions dataset and the Charades-STA dataset demonstrate that our
two-stage model achieves compelling performance.
- Abstract(参考訳): 本稿では,映像中の文の弱教師付き時間的接地問題について検討する。
具体的には,未検索の映像と問合せ文を与えられた場合,学習中の時間的アノテーションに依存せず,意味的に問合せ文に対応する映像の時間的セグメントを局所化することを目的としている。
本稿では,この問題を粗大な方法で解くための2段階モデルを提案する。
粗い段階では,まず,複数スケールスライディングウインドウを用いた固定長時間提案のセットを生成し,その視覚特徴と文の特徴を一致させ,最も一致した提案を粗い接地結果として識別する。
ファインステージでは、ベストマッチング提案におけるフレームの視覚的特徴と文の特徴との微粒なマッチングを行い、微粒な接地結果の正確なフレーム境界を特定する。
ActivityNet CaptionsデータセットとCharades-STAデータセットに関する総合的な実験は、2段階のモデルが魅力的なパフォーマンスを実現していることを示している。
関連論文リスト
- Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Generation-Guided Multi-Level Unified Network for Video Grounding [18.402093379973085]
ビデオグラウンディングは、未トリミングされたビデオの中で、クエリ記述に最適なタイムスタンプを見つけることを目的としている。
モーメントレベルのアプローチは、グローバルな視点で各過渡モーメントが境界となる確率を直接予測する。
クリップレベルのものは、異なる時間窓のモーメントをプロポーザルに集約し、最も類似したモーメントを推論し、きめ細かいグラウンドリングにおいてその優位性をもたらす。
論文 参考訳(メタデータ) (2023-03-14T09:48:59Z) - Fine-grained Semantic Alignment Network for Weakly Supervised Temporal
Language Grounding [148.46348699343991]
時間的言語接地は、自然言語記述に基づいてビデオセグメントを未編集ビデオにローカライズすることを目的としている。
既存の弱教師付きメソッドのほとんどは、候補セグメントを生成し、MILベースのフレームワークを通じて、相互アライメントを学ぶ。
我々は、弱い教師付きTLGのための新しい候補のないフレームワーク、細粒度セマンティックアライメントネットワーク(FSAN)を提案する。
論文 参考訳(メタデータ) (2022-10-21T13:10:27Z) - Can Shuffling Video Benefit Temporal Bias Problem: A Novel Training
Framework for Temporal Grounding [20.185272219985787]
テンポラルグラウンドディングは、意図しないビデオにおいて、与えられた文クエリに意味的に対応する対象のビデオモーメントを見つけることを目的としている。
従来の方法は、視覚的・テクスチャ的セマンティックアライメントに基づいて、ターゲットのモーメント位置を推論するのではなく、トレーニングセットにおけるクエリの時間的バイアスに過度に依存する。
本稿では,シャッフルビデオを用いて時間的バイアス問題に対処し,グラウンド化精度を損なうことなく,グラウンド化モデルを構築するための新しいトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-29T14:11:48Z) - Multi-Scale Self-Contrastive Learning with Hard Negative Mining for
Weakly-Supervised Query-based Video Grounding [27.05117092371221]
本稿では,弱教師付き環境下での問合せに基づくビデオグラウンド処理に対処するための自己コントラスト学習フレームワークを提案する。
まず,クエリのセマンティクスを参照するフレームワイドマッチングスコアを学習し,前景フレームを予測できる新しいグラウンド方式を提案する。
第二に、予測されたフレームは比較的粗いので、隣接するフレームに類似した外観を示すため、粗いから微妙な対照的な学習パラダイムを提案する。
論文 参考訳(メタデータ) (2022-03-08T04:01:08Z) - Cross-Sentence Temporal and Semantic Relations in Video Activity
Localisation [79.50868197788773]
我々は、クロスセンスリレーショナルマイニングを導入して、より正確な教師付きソリューションを開発する。
本稿では,(1)トリミング順序付けと(2)ビデオ活動の段落記述における文間の意味的一貫性の2つの横断的関係性制約について検討する。
2つのパブリックなアクティビティローカライゼーションデータセットの実験は、最先端の弱い教師付き手法に対する我々のアプローチの利点を示している。
論文 参考訳(メタデータ) (2021-07-23T20:04:01Z) - A Simple Yet Effective Method for Video Temporal Grounding with
Cross-Modality Attention [31.218804432716702]
言語誘導ビデオの時間的グラウンド化の課題は、検索文に対応する特定のビデオクリップを、未トリミングビデオでローカライズすることである。
直感的な構造設計が可能な単純な2分岐クロスモダリティアテンション(CMA)モジュールを提案する。
さらに,アノテーションバイアスの影響を緩和し,時間的接地精度を向上させるタスク固有回帰損失関数を導入する。
論文 参考訳(メタデータ) (2020-09-23T16:03:00Z) - Regularized Two-Branch Proposal Networks for Weakly-Supervised Moment
Retrieval in Videos [108.55320735031721]
ビデオモーメント検索は、所定の文に従って、ビデオ中のターゲットモーメントをローカライズすることを目的としている。
既存の弱監督手法の多くは、MILベースのフレームワークをサンプル間対決の開発に適用している。
本稿では,サンプル間およびサンプル内対立を同時に検討するための,正規化された2分岐提案ネットワークを提案する。
論文 参考訳(メタデータ) (2020-08-19T04:42:46Z) - Where Does It Exist: Spatio-Temporal Video Grounding for Multi-Form
Sentences [107.0776836117313]
STVGは、トリミングされていないビデオと宣言的/解釈的な文が与えられた場合、クエリされたオブジェクトの時間管をローカライズすることを目的としている。
既存の手法では、非効率なチューブ前世代と新しいオブジェクト関係モデリングの欠如により、STVGタスクに対処できない。
本稿では,この課題に対する宣言型時間グラフ推論ネットワーク(STGRN)を提案する。
論文 参考訳(メタデータ) (2020-01-19T19:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。