論文の概要: Multi-scale 2D Representation Learning for weakly-supervised moment
retrieval
- arxiv url: http://arxiv.org/abs/2111.02741v1
- Date: Thu, 4 Nov 2021 10:48:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-05 13:19:27.357768
- Title: Multi-scale 2D Representation Learning for weakly-supervised moment
retrieval
- Title(参考訳): 弱教師付きモーメント検索のためのマルチスケール2次元表現学習
- Authors: Ding Li, Rui Wu, Yongqiang Tang, Zhizhong Zhang and Wensheng Zhang
- Abstract要約: 弱教師付き映像モーメント検索のためのマルチスケール2次元表現学習法を提案する。
具体的には,まず時間スケール毎に2次元マップを構築し,候補間の時間依存性を捉える。
学習可能な畳み込みニューラルネットワークを用いて,各スケールマップからトップK候補を選択する。
- 参考スコア(独自算出の注目度): 18.940164141627914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video moment retrieval aims to search the moment most relevant to a given
language query. However, most existing methods in this community often require
temporal boundary annotations which are expensive and time-consuming to label.
Hence weakly supervised methods have been put forward recently by only using
coarse video-level label. Despite effectiveness, these methods usually process
moment candidates independently, while ignoring a critical issue that the
natural temporal dependencies between candidates in different temporal scales.
To cope with this issue, we propose a Multi-scale 2D Representation Learning
method for weakly supervised video moment retrieval. Specifically, we first
construct a two-dimensional map for each temporal scale to capture the temporal
dependencies between candidates. Two dimensions in this map indicate the start
and end time points of these candidates. Then, we select top-K candidates from
each scale-varied map with a learnable convolutional neural network. With a
newly designed Moments Evaluation Module, we obtain the alignment scores of the
selected candidates. At last, the similarity between captions and language
query is served as supervision for further training the candidates' selector.
Experiments on two benchmark datasets Charades-STA and ActivityNet Captions
demonstrate that our approach achieves superior performance to state-of-the-art
results.
- Abstract(参考訳): ビデオモーメント検索は、与えられた言語クエリに最も関連するモーメントを検索することを目的としている。
しかし、このコミュニティの既存のほとんどのメソッドは時間境界アノテーションを必要とすることが多い。
したがって、粗いビデオレベルラベルのみを用いて、弱い教師付き手法が最近提案されている。
有効性にも拘わらず、これらの手法は通常モーメント候補を個別に処理するが、時間スケールの異なる候補間の自然な時間依存性は無視される。
そこで本研究では,弱教師付き映像モーメント検索のためのマルチスケール2次元表現学習手法を提案する。
具体的には,まず時間スケール毎に2次元マップを構築し,候補間の時間依存性を捉える。
この図の2次元は、これらの候補の開始点と終了点を示している。
次に,学習可能な畳み込みニューラルネットワークを用いて,各スケールマップからトップK候補を選択する。
新たに設計されたモーメント評価モジュールを用いて,選択した候補のアライメントスコアを得る。
最終的に、キャプションと言語クエリの類似性は、候補のセレクタをさらに訓練するための監督として提供される。
Charades-STA と ActivityNet Captions の2つのベンチマークデータセットによる実験により,我々の手法が最先端の結果に対して優れた性能を発揮することが示された。
関連論文リスト
- Temporal-aware Hierarchical Mask Classification for Video Semantic
Segmentation [62.275143240798236]
ビデオセマンティックセグメンテーションデータセットは、ビデオ毎のカテゴリが限られている。
VSSトレーニング中に意味のある勾配更新を受けるために、クエリの10%未満がマッチする可能性がある。
提案手法は,最新のVSSベンチマークVSPWにおいてベルやホイッスルを使わずに,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-09-14T20:31:06Z) - Candidate Set Re-ranking for Composed Image Retrieval with Dual
Multi-modal Encoder [45.60134971181856]
合成画像検索は、参照画像とテキストペアからなる所定のマルチモーダルユーザクエリに最もよく一致する画像を見つけることを目的としている。
既存の方法では、コーパス全体へのイメージ埋め込みをプリコンプリートし、これらを、テスト時にクエリテキストによって修正された参照イメージ埋め込みと比較する。
両スキームの利点を2段階モデルで組み合わせることを提案する。
論文 参考訳(メタデータ) (2023-05-25T17:56:24Z) - Locate before Answering: Answer Guided Question Localization for Video
Question Answering [70.38700123685143]
LocAnsは質問ロケータと回答予測器をエンドツーエンドモデルに統合する。
最新の2つのビデオQAデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-05T08:19:16Z) - Unsupervised Pre-training for Temporal Action Localization Tasks [76.01985780118422]
本稿では、Pseudo Action Localization (PAL) と呼ばれる自己教師付きプレテキストタスクを、時間的アクションローカライゼーションタスク(UP-TAL)のための教師なし事前訓練機能エンコーダに提案する。
具体的には、まず1つのビデオから複数のクリップを含む時間領域をランダムに選択し、他の2つのビデオの異なる時間的位置に貼り付ける。
前提課題は、2つの合成ビデオからペーストした擬似行動領域の特徴を調整し、両者の合意を最大化することである。
論文 参考訳(メタデータ) (2022-03-25T12:13:43Z) - Multi-Scale 2D Temporal Adjacent Networks for Moment Localization with
Natural Language [112.32586622873731]
自然言語による未編集映像から特定の瞬間を検索する問題に対処する。
我々は、時間スケールの異なる2次元マップのセットを用いて、ビデオモーメント間の時間的文脈をモデル化する。
モーメントローカライゼーションのためのシングルショットフレームワークであるMS-2D-TAN(Multi-Scale Temporal Adjacent Network)を提案する。
論文 参考訳(メタデータ) (2020-12-04T15:09:35Z) - DORi: Discovering Object Relationship for Moment Localization of a
Natural-Language Query in Video [98.54696229182335]
本研究では,自然言語クエリを用いて,時間的モーメントローカライゼーションの課題について検討する。
私たちの重要なイノベーションは、言語で条件付きメッセージパッシングアルゴリズムを通じて、ビデオ機能の埋め込みを学ぶことです。
時間的なサブグラフは、時間を通してビデオ内のアクティビティをキャプチャする。
論文 参考訳(メタデータ) (2020-10-13T09:50:29Z) - Frame-wise Cross-modal Matching for Video Moment Retrieval [32.68921139236391]
ビデオモーメント検索は、与えられた言語クエリのためにビデオ中の瞬間を検索するターゲットである。
本課題は,1)未編集ビデオにおける関連モーメントのローカライズの必要性,2)テキストクエリとビデオコンテンツ間のセマンティックなギャップを埋めることである。
本稿では,対話モデルに基づいて時間境界を予測できる注意的相互関連マッチングモデルを提案する。
論文 参考訳(メタデータ) (2020-09-22T10:25:41Z) - VLANet: Video-Language Alignment Network for Weakly-Supervised Video
Moment Retrieval [21.189093631175425]
ビデオモーメント検索(英語: Video Moment Retrieval、VMR)は、自然言語クエリで指定された未編集ビデオの時間モーメントをローカライズするタスクである。
本稿では、弱い教師付き方式(wVMR)でVMRを実行する方法を検討する。
実験の結果,Charades-STAおよびDiDeMoデータセット上での最先端性能が得られた。
論文 参考訳(メタデータ) (2020-08-24T07:54:59Z) - Document Modeling with Graph Attention Networks for Multi-grained
Machine Reading Comprehension [127.3341842928421]
Natural Questionsは、新しい挑戦的な機械読解ベンチマークである。
解答は2つあり、長解(典型的には1段落)と短解(長解の内にある1つ以上の実体)である。
既存の方法は、これらの2つのサブタスクをトレーニング中に個別に扱い、依存関係を無視します。
本稿では,文書を階層的にモデル化する多層機械読解フレームワークを提案する。
論文 参考訳(メタデータ) (2020-05-12T14:20:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。