論文の概要: Boundary Proposal Network for Two-Stage Natural Language Video
Localization
- arxiv url: http://arxiv.org/abs/2103.08109v1
- Date: Mon, 15 Mar 2021 03:06:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-16 14:08:36.521544
- Title: Boundary Proposal Network for Two-Stage Natural Language Video
Localization
- Title(参考訳): 2段階自然言語ビデオローカライズのための境界提案ネットワーク
- Authors: Shaoning Xiao, Long Chen, Songyang Zhang, Wei Ji, Jian Shao, Lu Ye,
Jun Xiao
- Abstract要約: 境界提案ネットワーク(BPNet)は、上記の問題を除去する普遍的な2段階フレームワークである。
最初の段階では、BPNetはアンカーフリーモデルを使用して、その境界を持つ品質候補ビデオセグメントのグループを生成します。
第2段階では、候補と言語クエリの間の多言語相互作用を共同でモデル化するビジュアル言語融合層が提案される。
- 参考スコア(独自算出の注目度): 23.817486773852142
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We aim to address the problem of Natural Language Video Localization
(NLVL)-localizing the video segment corresponding to a natural language
description in a long and untrimmed video. State-of-the-art NLVL methods are
almost in one-stage fashion, which can be typically grouped into two
categories: 1) anchor-based approach: it first pre-defines a series of video
segment candidates (e.g., by sliding window), and then does classification for
each candidate; 2) anchor-free approach: it directly predicts the probabilities
for each video frame as a boundary or intermediate frame inside the positive
segment. However, both kinds of one-stage approaches have inherent drawbacks:
the anchor-based approach is susceptible to the heuristic rules, further
limiting the capability of handling videos with variant length. While the
anchor-free approach fails to exploit the segment-level interaction thus
achieving inferior results. In this paper, we propose a novel Boundary Proposal
Network (BPNet), a universal two-stage framework that gets rid of the issues
mentioned above. Specifically, in the first stage, BPNet utilizes an
anchor-free model to generate a group of high-quality candidate video segments
with their boundaries. In the second stage, a visual-language fusion layer is
proposed to jointly model the multi-modal interaction between the candidate and
the language query, followed by a matching score rating layer that outputs the
alignment score for each candidate. We evaluate our BPNet on three challenging
NLVL benchmarks (i.e., Charades-STA, TACoS and ActivityNet-Captions). Extensive
experiments and ablative studies on these datasets demonstrate that the BPNet
outperforms the state-of-the-art methods.
- Abstract(参考訳): 自然言語ビデオローカライズ(nlvl)の問題に対処し,自然言語記述に対応する映像セグメントを長大で難解なビデオにローカライズすることを目的とする。
State-of-the-art NLVL法はほぼ1段階の手法であり、典型的には2つのカテゴリに分類される: 1) アンカーベースアプローチ: まず一連のビデオセグメント候補(例えば、スライドウィンドウ)を事前に定義し、次に各候補を分類する; 2) アンカーフリーアプローチ: 各ビデオフレームの確率を直接、正のセグメント内の境界または中間フレームとして予測する。
しかし、両方のタイプのワンステージアプローチには固有の欠点があります。アンカーベースのアプローチは、ヒューリスティックルールの影響を受けやすく、可変長のビデオの処理能力をさらに制限します。
アンカーフリーアプローチはセグメントレベルの相互作用をうまく利用できないため、結果が劣る。
本稿では,上述の問題を解消する普遍的な二段階フレームワークである境界提案ネットワーク(bpnet)を提案する。
特に第1段階では,BPNetはアンカーフリーなモデルを用いて,高品質なビデオセグメントを境界付きで生成する。
第2段階では、候補と言語クエリ間のマルチモーダルな相互作用を共同でモデル化する視覚言語融合層が提案され、次いで各候補に対するアライメントスコアを出力するマッチングスコア評価層が提案される。
BPNetを3つの挑戦的NLVLベンチマーク(Charades-STA,TACoS,ActivityNet-Captions)で評価した。
これらのデータセットに関する広範な実験とアブレーション研究は、BPNetが最先端の方法よりも優れていることを実証している。
関連論文リスト
- Generation-Guided Multi-Level Unified Network for Video Grounding [18.402093379973085]
ビデオグラウンディングは、未トリミングされたビデオの中で、クエリ記述に最適なタイムスタンプを見つけることを目的としている。
モーメントレベルのアプローチは、グローバルな視点で各過渡モーメントが境界となる確率を直接予測する。
クリップレベルのものは、異なる時間窓のモーメントをプロポーザルに集約し、最も類似したモーメントを推論し、きめ細かいグラウンドリングにおいてその優位性をもたらす。
論文 参考訳(メタデータ) (2023-03-14T09:48:59Z) - Hierarchical Local-Global Transformer for Temporal Sentence Grounding [58.247592985849124]
本稿では,時間文グラウンドリングのマルチメディア問題について検討する。
与えられた文問合せに従って、トリミングされていないビデオ内の特定のビデオセグメントを正確に決定することを目的としている。
論文 参考訳(メタデータ) (2022-08-31T14:16:56Z) - PPMN: Pixel-Phrase Matching Network for One-Stage Panoptic Narrative
Grounding [24.787497472368244]
本稿では,各フレーズと対応する画素を直接マッチングする一段階のPixel-Phrase Matching Network (PPMN)を提案する。
提案手法は,PNGの4.0絶対平均リコールゲインを用いて,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2022-08-11T05:42:12Z) - Skimming, Locating, then Perusing: A Human-Like Framework for Natural
Language Video Localization [19.46938403691984]
そこで我々は,Skimming-Locating-Perusingと呼ばれる2段階のヒューマンライクなフレームワークを提案する。
SLPはSkimming-and-Locating (SL) モジュールと Bi-directional Perusing (BP) モジュールで構成されている。
我々のSLPは最先端の手法よりも優れており、より正確なセグメント境界をローカライズしている。
論文 参考訳(メタデータ) (2022-07-27T10:59:33Z) - Part-level Action Parsing via a Pose-guided Coarse-to-Fine Framework [108.70949305791201]
パートレベルのアクションパーシング(PAP)は、ビデオレベルのアクションを予測するだけでなく、ビデオ内の各人に対するフレームレベルのきめ細かいアクションやインタラクションを認識することを目的としている。
特に,本フレームワークは,まず入力ビデオの映像レベルのクラスを予測し,次に身体部位をローカライズし,部分レベルの動作を予測する。
我々のフレームワークは最先端のパフォーマンスを達成し、既存の手法を31.10%のROCスコアで上回ります。
論文 参考訳(メタデータ) (2022-03-09T01:30:57Z) - Natural Language Video Localization with Learnable Moment Proposals [40.91060659795612]
学習可能なモーメントの提案を固定したLPNet(Learnable Proposal Network for NLVL)と呼ばれる新しいモデルを提案する。
本稿では,既存の最先端手法に対するLPNetの有効性を示す。
論文 参考訳(メタデータ) (2021-09-22T12:18:58Z) - Rethinking Cross-modal Interaction from a Top-down Perspective for
Referring Video Object Segmentation [140.4291169276062]
ビデオオブジェクトセグメンテーション(RVOS)は、ビデオオブジェクトを自然言語参照のガイダンスでセグメント化することを目的としている。
以前の手法では、画像格子上の言語参照を直接グラウンド化することで、RVOSに対処するのが一般的であった。
そこで本研究では,複数のサンプルフレームから検出されたオブジェクトマスクをビデオ全体へ伝播させることにより,オブジェクトトラッカーの徹底的なセットを構築した。
次に,Transformerベースのトラックレット言語基底モジュールを提案し,インスタンスレベルの視覚的関係とモーダル間相互作用を同時に,効率的にモデル化する。
論文 参考訳(メタデータ) (2021-06-02T10:26:13Z) - Video Instance Segmentation with a Propose-Reduce Paradigm [68.59137660342326]
ビデオインスタンスセグメンテーション(VIS)は、ビデオ内の各フレームごとに定義されたクラスのすべてのインスタンスをセグメンテーションし、関連付けることを目的とする。
先行メソッドは通常、フレームまたはクリップのセグメンテーションを最初に取得し、追跡またはマッチングによって不完全な結果をマージします。
新しいパラダイムであるPropose-Reduceを提案し、入力ビデオの完全なシーケンスを1ステップで生成します。
論文 参考訳(メタデータ) (2021-03-25T10:58:36Z) - BSN++: Complementary Boundary Regressor with Scale-Balanced Relation
Modeling for Temporal Action Proposal Generation [85.13713217986738]
我々は,時間的提案生成のための補完的境界回帰器と関係モデリングを利用する新しいフレームワークであるBSN++を提案する。
当然のことながら、提案されたBSN++は、時間的アクションローカライゼーションタスクに関するCVPR19 - ActivityNetのリーダーボードで1位にランクインした。
論文 参考訳(メタデータ) (2020-09-15T07:08:59Z) - Fine-grained Iterative Attention Network for TemporalLanguage
Localization in Videos [63.94898634140878]
ビデオ中の時間的言語ローカライゼーションは、与えられた文クエリに基づいて、ビデオセグメントの1つを未トリミングビデオにグラウンドすることを目的としている。
本稿では,2つのクエリ・ビデオ・インフォーム抽出のための反復的注意モジュールからなる細粒度反復注意ネットワーク(FIAN)を提案する。
本稿では,Ac-tivityNet Captions,TACoS,Charades-STAの3つのベンチマークで提案手法を評価した。
論文 参考訳(メタデータ) (2020-08-06T04:09:03Z) - CBR-Net: Cascade Boundary Refinement Network for Action Detection:
Submission to ActivityNet Challenge 2020 (Task 1) [42.77192990307131]
我々は,ActivityNet Challenge 2020において,時間的行動ローカライゼーション(検出)(タスク1)の課題に対する解決策を提示する。
本研究の目的は、興味あるアクションが発生する間隔を時間的に局所化し、長い未編集ビデオにおけるアクションカテゴリを予測することである。
この段階では、微調整ネットワークによって得られたビデオレベルの分類結果を組み合わせて、各提案のカテゴリを予測する。
論文 参考訳(メタデータ) (2020-06-13T01:05:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。