論文の概要: Learning to Combine the Modalities of Language and Video for Temporal
Moment Localization
- arxiv url: http://arxiv.org/abs/2109.02925v1
- Date: Tue, 7 Sep 2021 08:25:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-08 14:38:03.247047
- Title: Learning to Combine the Modalities of Language and Video for Temporal
Moment Localization
- Title(参考訳): 時間的モーメント定位のための言語とビデオのモダリティを組み合わせる学習
- Authors: Jungkyoo Shin and Jinyoung Moon
- Abstract要約: 時間的モーメントローカライゼーションは、クエリによって指定されたモーメントにマッチする最適なビデオセグメントを検索することを目的としている。
本稿では,時間的モーメントを局所化する認知過程を模倣して,新たな繰り返し単位であるクロスモーダル長短期記憶(CM-LSTM)を導入する。
また、入出力クエリーにより、入出力された映像特徴と未入出力映像特徴の両方に対する2ストリームの注意機構を考案し、必要な視覚情報が無視されるのを防ぐ。
- 参考スコア(独自算出の注目度): 4.203274985072923
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Temporal moment localization aims to retrieve the best video segment matching
a moment specified by a query. The existing methods generate the visual and
semantic embeddings independently and fuse them without full consideration of
the long-term temporal relationship between them. To address these
shortcomings, we introduce a novel recurrent unit, cross-modal long short-term
memory (CM-LSTM), by mimicking the human cognitive process of localizing
temporal moments that focuses on the part of a video segment related to the
part of a query, and accumulates the contextual information across the entire
video recurrently. In addition, we devise a two-stream attention mechanism for
both attended and unattended video features by the input query to prevent
necessary visual information from being neglected. To obtain more precise
boundaries, we propose a two-stream attentive cross-modal interaction network
(TACI) that generates two 2D proposal maps obtained globally from the
integrated contextual features, which are generated by using CM-LSTM, and
locally from boundary score sequences and then combines them into a final 2D
map in an end-to-end manner. On the TML benchmark dataset,
ActivityNet-Captions, the TACI outperform state-of-the-art TML methods with R@1
of 45.50% and 27.23% for IoU@0.5 and IoU@0.7, respectively. In addition, we
show that the revised state-of-the-arts methods by replacing the original LSTM
with our CM-LSTM achieve performance gains.
- Abstract(参考訳): 時間的モーメントローカライゼーションは、クエリによって指定されたモーメントにマッチする最適なビデオセグメントを検索することを目的としている。
既存の手法は視覚的および意味的な埋め込みを独立に生成し、それら間の長期的な時間的関係を十分に考慮せずにそれらを融合する。
これらの欠点に対処するために,問合せの一部に関連する映像セグメントの部分に焦点を当てた時間的モーメントを局所化する人間の認知過程を模倣して,新たなリカレントユニットであるクロスモーダル・ロング・短期記憶(cm-lstm)を導入し,映像全体にわたって文脈情報を蓄積する。
また,入力クエリによって映像特徴量と未対応機能の両方に対する2ストリームの注意機構を考案し,必要な視覚情報が無視されるのを防止する。
より正確な境界を得るために,CM-LSTMを用いて局所的に生成する統合文脈特徴からグローバルに得られた2次元の2次元提案マップを,境界スコアシーケンスから生成し,終端から終端までの2次元マップに結合する2ストリーム注意型クロスモーダル・インタラクション・ネットワーク(TACI)を提案する。
TMLベンチマークデータセットであるActivityNet-Captionsでは、TACIは、それぞれ45.50%のR@1とIoU@0.5とIoU@0.7の27.23%で最先端のTMLメソッドを上回っている。
さらに,従来のLSTMをCM-LSTMに置き換えることで,改良された最先端手法が性能向上を実現することを示す。
関連論文リスト
- Self-Supervised Video Representation Learning via Latent Time Navigation [12.721647696921865]
自己教師付きビデオ表現学習は、1つのビデオの異なる時間セグメント間の類似性を最大化することを目的としている。
微粒な動きを捉えるために、LTN(Latent Time Navigation)を提案する。
実験により,LTNによる映像表現の学習は,動作分類の性能を一貫して向上させることが示された。
論文 参考訳(メタデータ) (2023-05-10T20:06:17Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - HTNet: Anchor-free Temporal Action Localization with Hierarchical
Transformers [19.48000379201692]
時間的アクションローカライゼーション(TAL: Temporal Action Localization)は、ビデオ内のアクションの集合を識別するタスクである。
我々は,ビデオから開始時間,終了時間,クラス>三つ組のセットを予測する,HTNetと呼ばれる新しいアンカーフリーフレームワークを提案する。
本手法は,2つのTALベンチマークデータセット上で,正確なアクションインスタンスと最先端性能をローカライズする方法を実証する。
論文 参考訳(メタデータ) (2022-07-20T05:40:03Z) - Exploiting long-term temporal dynamics for video captioning [40.15826846670479]
本稿では,時間的・空間的LSTM(TS-LSTM)という新しい手法を提案し,ビデオシーケンス内の空間的・時間的ダイナミクスを体系的に活用する。
2つの公開ビデオキャプションベンチマークで得られた実験結果から,我々のTS-LSTMは最先端の手法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-02-22T11:40:09Z) - Multimodal Transformer with Variable-length Memory for
Vision-and-Language Navigation [79.1669476932147]
VLN(Vision-and-Language Navigation)は、エージェントが目標位置に向かうために言語命令に従う必要があるタスクである。
近年のTransformer-based VLN法は,視覚的観察と言語指導の直接的な結びつきから大きな進歩を遂げている。
視覚的な自然言語ナビゲーションのための可変長メモリ(MTVM)を備えたマルチモーダルトランス (Multimodal Transformer) を提案する。
論文 参考訳(メタデータ) (2021-11-10T16:04:49Z) - Efficient Global-Local Memory for Real-time Instrument Segmentation of
Robotic Surgical Video [53.14186293442669]
手術器具の知覚における重要な手がかりとして,隣接するフレームからの局所的時間依存性と,長距離における大域的意味的相関があげられる。
本稿では,グローバルとローカルの両方の時間的知識を関連付ける新しいデュアルメモリネットワーク(DMNet)を提案する。
本手法は,実時間速度を維持しながらセグメント化精度を向上する手法である。
論文 参考訳(メタデータ) (2021-09-28T10:10:14Z) - Improving Video Instance Segmentation via Temporal Pyramid Routing [61.10753640148878]
Video Instance(VIS)は、ビデオシーケンス内の各インスタンスを検出し、セグメンテーションし、追跡することを目的とした、新しい、本質的にはマルチタスク問題である。
隣接する2つのフレームからなる特徴ピラミッド対から画素レベルのアグリゲーションを条件付きで調整し,実行するための時間ピラミッドルーティング(TPR)戦略を提案する。
我々のアプローチはプラグイン・アンド・プレイモジュールであり、既存のインスタンス・セグメンテーション・メソッドにも容易に適用できます。
論文 参考訳(メタデータ) (2021-07-28T03:57:12Z) - Cross-modal Consensus Network for Weakly Supervised Temporal Action
Localization [74.34699679568818]
時間的行動局所化 (WS-TAL) は、ビデオレベルの分類的監督によって、ビデオ内のアクションインスタンスをローカライズすることを目的とした課題である。
この問題に対処するためのクロスモーダルコンセンサスネットワーク(CO2-Net)を提案する。
論文 参考訳(メタデータ) (2021-07-27T04:21:01Z) - Temporal Context Aggregation Network for Temporal Action Proposal
Refinement [93.03730692520999]
時間的行動提案生成はビデオ理解分野において難しいが重要な課題である。
現在の方法はまだ不正確な時間境界と検索に使用される劣った自信に苦しんでいます。
TCANet は、「ローカルおよびグローバル」な時間的コンテキストアグリゲーションを通じて、高品質のアクション提案を生成するために提案します。
論文 参考訳(メタデータ) (2021-03-24T12:34:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。