論文の概要: Adaptive Proposal Generation Network for Temporal Sentence Localization
in Videos
- arxiv url: http://arxiv.org/abs/2109.06398v1
- Date: Tue, 14 Sep 2021 02:02:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-15 15:55:37.120950
- Title: Adaptive Proposal Generation Network for Temporal Sentence Localization
in Videos
- Title(参考訳): ビデオにおける時間的文定位のための適応的提案生成ネットワーク
- Authors: Daizong Liu, Xiaoye Qu, Jianfeng Dong, Pan Zhou
- Abstract要約: ビデオ(TSLV)における時間文ローカライゼーションの問題に対処する。
従来のメソッドは、事前に定義されたセグメントの提案でターゲットセグメントをローカライズするトップダウンフレームワークに従っている。
本稿では,効率を向上しつつセグメントレベルの相互作用を維持するための適応提案生成ネットワーク(APGN)を提案する。
- 参考スコア(独自算出の注目度): 58.83440885457272
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the problem of temporal sentence localization in videos (TSLV).
Traditional methods follow a top-down framework which localizes the target
segment with pre-defined segment proposals. Although they have achieved decent
performance, the proposals are handcrafted and redundant. Recently, bottom-up
framework attracts increasing attention due to its superior efficiency. It
directly predicts the probabilities for each frame as a boundary. However, the
performance of bottom-up model is inferior to the top-down counterpart as it
fails to exploit the segment-level interaction. In this paper, we propose an
Adaptive Proposal Generation Network (APGN) to maintain the segment-level
interaction while speeding up the efficiency. Specifically, we first perform a
foreground-background classification upon the video and regress on the
foreground frames to adaptively generate proposals. In this way, the
handcrafted proposal design is discarded and the redundant proposals are
decreased. Then, a proposal consolidation module is further developed to
enhance the semantic of the generated proposals. Finally, we locate the target
moments with these generated proposals following the top-down framework.
Extensive experiments on three challenging benchmarks show that our proposed
APGN significantly outperforms previous state-of-the-art methods.
- Abstract(参考訳): ビデオ(TSLV)における時間文の局所化の問題に対処する。
従来の方法は、事前定義されたセグメント提案でターゲットセグメントをローカライズするトップダウンフレームワークに従う。
彼らはまともなパフォーマンスを達成したが、提案は手作りで冗長である。
近年,ボトムアップフレームワークは効率が優れ,注目を集めている。
各フレームの確率を直接境界として予測する。
しかし、ボトムアップモデルの性能は、セグメントレベルの相互作用を活用できないため、トップダウンモデルよりも劣る。
本稿では,効率を向上しつつセグメントレベルの相互作用を維持するための適応提案生成ネットワーク(APGN)を提案する。
具体的には,まずフォアグラウンドバックグラウンドの分類とフォアグラウンドフレームのレグレッションを行い,提案を適応的に生成する。
このように手作りの提案設計は破棄され、冗長な提案は減少する。
そして、生成した提案のセマンティクスを高めるために、提案統合モジュールをさらに開発する。
最後に、トップダウンフレームワークに従って生成された提案でターゲットモーメントを見つけます。
3つの挑戦的ベンチマークの大規模な実験により、提案したAPGNは従来の最先端手法よりも大幅に優れていることが示された。
関連論文リスト
- Dense Hybrid Proposal Modulation for Lane Detection [72.49084826234363]
レーン検出のための高密度ハイブリッド提案変調(DHPM)法を提案する。
我々は、トポロジカルかつ空間的に高品質なレーン予測を生成するために、全ての提案を密に調整する。
我々のDHPMは4つの人気のあるデータセットで非常に競争力のあるパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-04-28T14:31:11Z) - ProposalCLIP: Unsupervised Open-Category Object Proposal Generation via
Exploiting CLIP Cues [49.88590455664064]
ProposalCLIPはアノテーションなしでさまざまなオブジェクトカテゴリの提案を予測できる。
提案CLIPはまた、教師なしオブジェクト検出のような下流タスクの利点を示す。
論文 参考訳(メタデータ) (2022-01-18T01:51:35Z) - Temporal Action Proposal Generation with Background Constraint [25.783837570359267]
時間的アクションプロポーザル生成(TAPG)は、時間的境界のある未トリミングビデオ中のアクションインスタンスを見つけることを目的とした課題である。
提案の信頼性を評価するため、既存の研究は、提案と根本真実の間の時間的相互統合(tIoU)によって監督される提案の行動スコアを予測するのが一般的である。
本稿では,低品質な提案をさらに抑制するための一般的な背景制約概念を革新的に提案する。
論文 参考訳(メタデータ) (2021-12-15T09:20:49Z) - Natural Language Video Localization with Learnable Moment Proposals [40.91060659795612]
学習可能なモーメントの提案を固定したLPNet(Learnable Proposal Network for NLVL)と呼ばれる新しいモデルを提案する。
本稿では,既存の最先端手法に対するLPNetの有効性を示す。
論文 参考訳(メタデータ) (2021-09-22T12:18:58Z) - Temporal Context Aggregation Network for Temporal Action Proposal
Refinement [93.03730692520999]
時間的行動提案生成はビデオ理解分野において難しいが重要な課題である。
現在の方法はまだ不正確な時間境界と検索に使用される劣った自信に苦しんでいます。
TCANet は、「ローカルおよびグローバル」な時間的コンテキストアグリゲーションを通じて、高品質のアクション提案を生成するために提案します。
論文 参考訳(メタデータ) (2021-03-24T12:34:49Z) - BSN++: Complementary Boundary Regressor with Scale-Balanced Relation
Modeling for Temporal Action Proposal Generation [85.13713217986738]
我々は,時間的提案生成のための補完的境界回帰器と関係モデリングを利用する新しいフレームワークであるBSN++を提案する。
当然のことながら、提案されたBSN++は、時間的アクションローカライゼーションタスクに関するCVPR19 - ActivityNetのリーダーボードで1位にランクインした。
論文 参考訳(メタデータ) (2020-09-15T07:08:59Z) - Complementary Boundary Generator with Scale-Invariant Relation Modeling
for Temporal Action Localization: Submission to ActivityNet Challenge 2020 [66.4527310659592]
本報告では,ActivityNet Challenge 2020 Task 1への提出時に使用したソリューションの概要を紹介する。
時間的行動ローカライゼーションタスクを2段階(すなわち提案生成と分類)に分離し,提案の多様性を高める。
提案手法は,課題テストセット上での平均mAPを用いて,時間的動作の局所化タスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-20T04:35:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。