論文の概要: Natural Language Video Localization with Learnable Moment Proposals
- arxiv url: http://arxiv.org/abs/2109.10678v1
- Date: Wed, 22 Sep 2021 12:18:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-23 13:44:21.507589
- Title: Natural Language Video Localization with Learnable Moment Proposals
- Title(参考訳): 学習可能なモーメント提案による自然言語ビデオのローカライゼーション
- Authors: Shaoning Xiao, Long Chen, Jian Shao, Yueting Zhuang, Jun Xiao
- Abstract要約: 学習可能なモーメントの提案を固定したLPNet(Learnable Proposal Network for NLVL)と呼ばれる新しいモデルを提案する。
本稿では,既存の最先端手法に対するLPNetの有効性を示す。
- 参考スコア(独自算出の注目度): 40.91060659795612
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given an untrimmed video and a natural language query, Natural Language Video
Localization (NLVL) aims to identify the video moment described by the query.
To address this task, existing methods can be roughly grouped into two groups:
1) propose-and-rank models first define a set of hand-designed moment
candidates and then find out the best-matching one. 2) proposal-free models
directly predict two temporal boundaries of the referential moment from frames.
Currently, almost all the propose-and-rank methods have inferior performance
than proposal-free counterparts. In this paper, we argue that propose-and-rank
approach is underestimated due to the predefined manners: 1) Hand-designed
rules are hard to guarantee the complete coverage of targeted segments. 2)
Densely sampled candidate moments cause redundant computation and degrade the
performance of ranking process. To this end, we propose a novel model termed
LPNet (Learnable Proposal Network for NLVL) with a fixed set of learnable
moment proposals. The position and length of these proposals are dynamically
adjusted during training process. Moreover, a boundary-aware loss has been
proposed to leverage frame-level information and further improve the
performance. Extensive ablations on two challenging NLVL benchmarks have
demonstrated the effectiveness of LPNet over existing state-of-the-art methods.
- Abstract(参考訳): 自然言語ビデオローカライゼーション(NLVL: Natural Language Video Localization)は、このクエリで記述されたビデオモーメントを特定することを目的としている。
この課題に対処するため、既存のメソッドは2つのグループに大別できる。
1)提案とランクモデル まず、手作りのモーメント候補を定義し、次に最適なマッチング候補を見つける。
2)提案自由モデルはフレームから参照モーメントの2つの時間境界を直接予測する。
現在、提案とランクの手法のほとんどは、提案のない手法よりも性能が劣っている。
本稿では,提案とランクのアプローチが事前定義されたマナーによって過小評価されていることを論じる。
1)手書きのルールは、対象セグメントの完全なカバレッジを保証するのが難しい。
2) 厳密にサンプリングされた候補モーメントは冗長な計算を引き起こし, ランキング処理の性能を低下させる。
そこで本研究では,学習可能なモーメントの提案を定式化したlpnet(learnable proposal network for nlvl)と呼ばれる新しいモデルを提案する。
これらの提案の位置と長さは、トレーニングプロセス中に動的に調整される。
さらに,フレームレベルの情報を活用し,さらなる性能向上を図るために,境界認識損失が提案されている。
2つの挑戦的なNLVLベンチマークに対する大規模な改善は、既存の最先端手法よりもLPNetの有効性を実証している。
関連論文リスト
- Adaptive Proposal Generation Network for Temporal Sentence Localization
in Videos [58.83440885457272]
ビデオ(TSLV)における時間文ローカライゼーションの問題に対処する。
従来のメソッドは、事前に定義されたセグメントの提案でターゲットセグメントをローカライズするトップダウンフレームワークに従っている。
本稿では,効率を向上しつつセグメントレベルの相互作用を維持するための適応提案生成ネットワーク(APGN)を提案する。
論文 参考訳(メタデータ) (2021-09-14T02:02:36Z) - VL-NMS: Breaking Proposal Bottlenecks in Two-Stage Visual-Language
Matching [75.71523183166799]
マルチモーダル入力をマッチングするための一般的なフレームワークは、2段階のプロセスに基づいている。
これらの手法は、2つの段階における提案の役割間の明らかな不一致を見落としていると論じる。
今回提案するVL-NMSは、問い合わせ対応の提案を第一段階に行う最初の手法です。
論文 参考訳(メタデータ) (2021-05-12T13:05:25Z) - Boundary Proposal Network for Two-Stage Natural Language Video
Localization [23.817486773852142]
境界提案ネットワーク(BPNet)は、上記の問題を除去する普遍的な2段階フレームワークである。
最初の段階では、BPNetはアンカーフリーモデルを使用して、その境界を持つ品質候補ビデオセグメントのグループを生成します。
第2段階では、候補と言語クエリの間の多言語相互作用を共同でモデル化するビジュアル言語融合層が提案される。
論文 参考訳(メタデータ) (2021-03-15T03:06:18Z) - BSN++: Complementary Boundary Regressor with Scale-Balanced Relation
Modeling for Temporal Action Proposal Generation [85.13713217986738]
我々は,時間的提案生成のための補完的境界回帰器と関係モデリングを利用する新しいフレームワークであるBSN++を提案する。
当然のことながら、提案されたBSN++は、時間的アクションローカライゼーションタスクに関するCVPR19 - ActivityNetのリーダーボードで1位にランクインした。
論文 参考訳(メタデータ) (2020-09-15T07:08:59Z) - VLANet: Video-Language Alignment Network for Weakly-Supervised Video
Moment Retrieval [21.189093631175425]
ビデオモーメント検索(英語: Video Moment Retrieval、VMR)は、自然言語クエリで指定された未編集ビデオの時間モーメントをローカライズするタスクである。
本稿では、弱い教師付き方式(wVMR)でVMRを実行する方法を検討する。
実験の結果,Charades-STAおよびDiDeMoデータセット上での最先端性能が得られた。
論文 参考訳(メタデータ) (2020-08-24T07:54:59Z) - Regularized Two-Branch Proposal Networks for Weakly-Supervised Moment
Retrieval in Videos [108.55320735031721]
ビデオモーメント検索は、所定の文に従って、ビデオ中のターゲットモーメントをローカライズすることを目的としている。
既存の弱監督手法の多くは、MILベースのフレームワークをサンプル間対決の開発に適用している。
本稿では,サンプル間およびサンプル内対立を同時に検討するための,正規化された2分岐提案ネットワークを提案する。
論文 参考訳(メタデータ) (2020-08-19T04:42:46Z) - Complementary Boundary Generator with Scale-Invariant Relation Modeling
for Temporal Action Localization: Submission to ActivityNet Challenge 2020 [66.4527310659592]
本報告では,ActivityNet Challenge 2020 Task 1への提出時に使用したソリューションの概要を紹介する。
時間的行動ローカライゼーションタスクを2段階(すなわち提案生成と分類)に分離し,提案の多様性を高める。
提案手法は,課題テストセット上での平均mAPを用いて,時間的動作の局所化タスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-20T04:35:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。