論文の概要: Skimming, Locating, then Perusing: A Human-Like Framework for Natural
Language Video Localization
- arxiv url: http://arxiv.org/abs/2207.13450v1
- Date: Wed, 27 Jul 2022 10:59:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-28 13:33:43.444664
- Title: Skimming, Locating, then Perusing: A Human-Like Framework for Natural
Language Video Localization
- Title(参考訳): skimming, locating, then perusing: 自然言語ビデオローカライズのための人間ライクなフレームワーク
- Authors: Daizong Liu, Wei Hu
- Abstract要約: そこで我々は,Skimming-Locating-Perusingと呼ばれる2段階のヒューマンライクなフレームワークを提案する。
SLPはSkimming-and-Locating (SL) モジュールと Bi-directional Perusing (BP) モジュールで構成されている。
我々のSLPは最先端の手法よりも優れており、より正確なセグメント境界をローカライズしている。
- 参考スコア(独自算出の注目度): 19.46938403691984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the problem of natural language video localization
(NLVL). Almost all existing works follow the "only look once" framework that
exploits a single model to directly capture the complex cross- and self-modal
relations among video-query pairs and retrieve the relevant segment. However,
we argue that these methods have overlooked two indispensable characteristics
of an ideal localization method: 1) Frame-differentiable: considering the
imbalance of positive/negative video frames, it is effective to highlight
positive frames and weaken negative ones during the localization. 2)
Boundary-precise: to predict the exact segment boundary, the model should
capture more fine-grained differences between consecutive frames since their
variations are often smooth. To this end, inspired by how humans perceive and
localize a segment, we propose a two-step human-like framework called
Skimming-Locating-Perusing (SLP). SLP consists of a Skimming-and-Locating (SL)
module and a Bi-directional Perusing (BP) module. The SL module first refers to
the query semantic and selects the best matched frame from the video while
filtering out irrelevant frames. Then, the BP module constructs an initial
segment based on this frame, and dynamically updates it by exploring its
adjacent frames until no frame shares the same activity semantic. Experimental
results on three challenging benchmarks show that our SLP is superior to the
state-of-the-art methods and localizes more precise segment boundaries.
- Abstract(参考訳): 本稿では,自然言語ビデオローカライゼーション(NLVL)の問題に対処する。
既存の作品のほとんどすべてが"only look once"フレームワークに従っており、単一のモデルを利用してビデオクエリペア間の複雑なクロスモーダルおよびセルフモーダル関係を直接キャプチャし、関連するセグメントを取得する。
しかし、これらの手法は理想的ローカライゼーション法の2つの必須特性を見落としていると論じる。
1) フレーム微分可能: 正負の映像フレームの不均衡を考えると, 正のフレームを強調し, ローカライゼーション時に負のフレームを弱めることが効果的である。
2) 境界精度: 正確なセグメント境界を予測するためには, モデルが連続フレーム間のよりきめ細かい相違を捉える必要がある。
そこで我々は,Skimming-Locating-Perusing (SLP)と呼ばれる2段階の人間のようなフレームワークを提案する。
SLPはSkimming-and-Locating (SL) モジュールと Bi-directional Perusing (BP) モジュールで構成される。
SLモジュールは、まずクエリセマンティクスを参照し、無関係なフレームをフィルタリングしながら、ビデオから最適なフレームを選択する。
そして、BPモジュールは、このフレームに基づいて初期セグメントを構築し、フレームが同じアクティビティセマンティクスを共有するまで、隣接するフレームを探索することで動的に更新する。
3つの挑戦的ベンチマークによる実験結果から,我々のSLPは最先端の手法よりも優れ,より正確なセグメント境界のローカライズが可能であった。
関連論文リスト
- Self-Chained Image-Language Model for Video Localization and Question
Answering [66.86740990630433]
ビデオ上での時間的ローカライゼーションとQAに対処するために,SeViLA(Se-Chained Video-Answering)フレームワークを提案する。
SeViLAフレームワークはLocalizerとAnswererの2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2023-05-11T17:23:00Z) - Rethinking the Video Sampling and Reasoning Strategies for Temporal
Sentence Grounding [64.99924160432144]
時間的文グラウンドディング(TSG)は、特定のセグメントの時間的境界を文問合せによってビデオから識別することを目的としている。
本稿では,TSG のための新しいサイムズサンプリング・推論ネットワーク (SSRN) を提案し,シムズサンプリング機構を導入し,追加のコンテキストフレームを生成する。
論文 参考訳(メタデータ) (2023-01-02T03:38:22Z) - Correspondence Matters for Video Referring Expression Comprehension [64.60046797561455]
ビデオ参照表現(REC)は、文章に記述された参照オブジェクトをビデオフレーム内の視覚領域にローカライズすることを目的としている。
既存の手法では,1)ビデオフレーム間の非一貫性な局所化結果,2)参照オブジェクトとコンテキストオブジェクトの混同という2つの問題に悩まされている。
本稿では、フレーム間およびクロスモーダルの両方で密接な関連性を明確に強化する新しいデュアル対応ネットワーク(DCNet)を提案する。
論文 参考訳(メタデータ) (2022-07-21T10:31:39Z) - TTVFI: Learning Trajectory-Aware Transformer for Video Frame
Interpolation [50.49396123016185]
ビデオフレーム(VFI)は、2つの連続するフレーム間の中間フレームを合成することを目的としている。
ビデオフレーム補間用トラジェクトリ対応トランス (TTVFI) を提案する。
提案手法は,4つの広く使用されているVFIベンチマークにおいて,他の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2022-07-19T03:37:49Z) - Exploring Motion Ambiguity and Alignment for High-Quality Video Frame
Interpolation [46.02120172459727]
本稿では,GTに近い中間フレームを可能な限り再構築する要件を緩和することを提案する。
本研究では,テクスチャ整合性損失 (TCL) を補間されたコンテンツが,与えられたフレーム内でのテクスチャ整合性損失 (TCL) と類似した構造を維持するべきであるという仮定に基づいて開発する。
論文 参考訳(メタデータ) (2022-03-19T10:37:06Z) - Towards Tokenized Human Dynamics Representation [41.75534387530019]
我々は,ビデオの時間的パターンを自己監督的に分割し,クラスタ化する方法について検討した。
我々は、ケンドールのTauによるフレームワイド表現学習ステップと、正規化された相互情報と言語エントロピーによる語彙構築ステップを評価する。
AIST++とPKU-MMDデータセットでは、アクトンはいくつかのベースラインと比較して大幅にパフォーマンスが改善されている。
論文 参考訳(メタデータ) (2021-11-22T18:59:58Z) - Multi-Scale Local-Temporal Similarity Fusion for Continuous Sign
Language Recognition [4.059599144668737]
連続手話認識(continuous sign language recognition)は、手話動画を順序付けられた光沢シーケンスに書き起こす公的な重要なタスクである。
1次元畳み込みネットワーク(1D-CNN)を採用して、シーケンシャルフレームを時間的に融合させることが期待できる方法である。
本稿では,このタスクの時間的類似性を通じて局所的特徴を適応的に融合することを提案する。
論文 参考訳(メタデータ) (2021-07-27T12:06:56Z) - TimeLens: Event-based Video Frame Interpolation [54.28139783383213]
本稿では,合成法とフロー法の両方の利点を生かした,等価寄与法であるTime Lensを紹介する。
最先端のフレームベースおよびイベントベース手法よりもPSNRが最大5.21dB向上したことを示す。
論文 参考訳(メタデータ) (2021-06-14T10:33:47Z) - Boundary Proposal Network for Two-Stage Natural Language Video
Localization [23.817486773852142]
境界提案ネットワーク(BPNet)は、上記の問題を除去する普遍的な2段階フレームワークである。
最初の段階では、BPNetはアンカーフリーモデルを使用して、その境界を持つ品質候補ビデオセグメントのグループを生成します。
第2段階では、候補と言語クエリの間の多言語相互作用を共同でモデル化するビジュアル言語融合層が提案される。
論文 参考訳(メタデータ) (2021-03-15T03:06:18Z) - SF-Net: Single-Frame Supervision for Temporal Action Localization [60.202516362976645]
単一フレームの監視は、低いアノテーションのオーバーヘッドを維持しながら、追加の時間的アクション信号を導入します。
本研究では,SF-Netと呼ばれる単一フレーム監視システムを提案する。
SF-Netは、セグメントローカライゼーションと単一フレームローカライゼーションの両方の観点から、最先端の弱い教師付き手法を大幅に改善する。
論文 参考訳(メタデータ) (2020-03-15T15:06:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。