論文の概要: You Need to Read Again: Multi-granularity Perception Network for Moment
Retrieval in Videos
- arxiv url: http://arxiv.org/abs/2205.12886v1
- Date: Wed, 25 May 2022 16:15:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-26 13:34:57.037399
- Title: You Need to Read Again: Multi-granularity Perception Network for Moment
Retrieval in Videos
- Title(参考訳): 再び読む必要がある:ビデオのモーメント検索のためのマルチグラニュラ性知覚ネットワーク
- Authors: Xin Sun, Xuan Wang, Jialin Gao, Qiong Liu, Xi Zhou
- Abstract要約: 本稿では,多粒度レベルでモダリティ内およびモダリティ間情報を知覚する新しい多粒度知覚ネットワーク(MGPN)を提案する。
具体的には、モーメント検索を多選択読解タスクとして定式化し、人間の読解戦略をフレームワークに統合する。
- 参考スコア(独自算出の注目度): 19.711703590063976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Moment retrieval in videos is a challenging task that aims to retrieve the
most relevant video moment in an untrimmed video given a sentence description.
Previous methods tend to perform self-modal learning and cross-modal
interaction in a coarse manner, which neglect fine-grained clues contained in
video content, query context, and their alignment. To this end, we propose a
novel Multi-Granularity Perception Network (MGPN) that perceives intra-modality
and inter-modality information at a multi-granularity level. Specifically, we
formulate moment retrieval as a multi-choice reading comprehension task and
integrate human reading strategies into our framework. A coarse-grained feature
encoder and a co-attention mechanism are utilized to obtain a preliminary
perception of intra-modality and inter-modality information. Then a
fine-grained feature encoder and a conditioned interaction module are
introduced to enhance the initial perception inspired by how humans address
reading comprehension problems. Moreover, to alleviate the huge computation
burden of some existing methods, we further design an efficient choice
comparison module and reduce the hidden size with imperceptible quality loss.
Extensive experiments on Charades-STA, TACoS, and ActivityNet Captions datasets
demonstrate that our solution outperforms existing state-of-the-art methods.
- Abstract(参考訳): 動画におけるモーメント検索は,文章記述が与えられたビデオにおいて,最も関連性の高い映像モーメントを検索することを目的とした課題である。
従来の手法では、ビデオコンテンツ、クエリコンテキスト、およびそれらのアライメントに含まれるきめ細かい手がかりを無視する、粗い方法で自己モーダル学習と相互モーダル相互作用を行う傾向があった。
この目的のために,多粒度レベルでモダリティ内およびモダリティ間情報を知覚する新しい多言語知覚ネットワーク(MGPN)を提案する。
具体的には,モーメント検索を多段読解タスクとして定式化し,人間の読解戦略をフレームワークに統合する。
粒度の粗い特徴エンコーダとコアテンション機構を利用して、モダリティ内およびモダリティ間情報の予備的な知覚を得る。
次に、人間の読解理解問題への対処方法に触発された初期知覚を高めるために、きめ細かい特徴エンコーダと条件付き相互作用モジュールを導入する。
さらに,既存手法の膨大な計算負荷を軽減するため,効率的な選択比較モジュールの設計と,非知覚的品質損失による隠れサイズを削減する。
Charades-STA、TACoS、ActivityNet Captionsのデータセットに関する大規模な実験は、我々のソリューションが既存の最先端手法よりも優れていることを示している。
関連論文リスト
- Learning Motion and Temporal Cues for Unsupervised Video Object Segmentation [49.113131249753714]
本稿では,動きと時間的手がかりを同時に活用する,MTNetと呼ばれる効率的なアルゴリズムを提案する。
MTNetは、エンコーダ内の特徴抽出過程において、外観と動作の特徴を効果的にマージすることによって考案される。
派生した機能を最適に活用するために、すべての機能レベルのデコーダのカスケードを使用します。
論文 参考訳(メタデータ) (2025-01-14T03:15:46Z) - Hierarchical Banzhaf Interaction for General Video-Language Representation Learning [60.44337740854767]
マルチモーダル表現学習は人工知能領域において重要な役割を担っている。
本稿では,多変量協調ゲーム理論を用いて,ビデオテキストをゲームプレイヤーとしてモデル化する手法を提案する。
元の構造をフレキシブルなエンコーダ・デコーダ・フレームワークに拡張し、モデルが様々な下流タスクに適応できるようにする。
論文 参考訳(メタデータ) (2024-12-30T14:09:15Z) - Query-centric Audio-Visual Cognition Network for Moment Retrieval, Segmentation and Step-Captioning [56.873534081386]
ビデオ検索、モーメント検索、モーメントセグメンテーション、ステップキャプションを含む新しいトピックHIRESTが紹介されている。
3つのタスクに対して信頼性の高いマルチモーダル表現を構築するために,クエリ中心の音声視覚認知ネットワークを提案する。
これにより、ユーザが優先するコンテンツを認識し、3つのタスクに対してクエリ中心の音声視覚表現を実現することができる。
論文 参考訳(メタデータ) (2024-12-18T06:43:06Z) - Detecting Misinformation in Multimedia Content through Cross-Modal Entity Consistency: A Dual Learning Approach [10.376378437321437]
クロスモーダルなエンティティの整合性を利用して、ビデオコンテンツから誤情報を検出するためのマルチメディア誤情報検出フレームワークを提案する。
以上の結果から,MultiMDは最先端のベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2024-08-16T16:14:36Z) - Towards Efficient and Effective Text-to-Video Retrieval with
Coarse-to-Fine Visual Representation Learning [15.998149438353133]
テキスト間検索のための2段階検索アーキテクチャを提案する。
トレーニングフェーズでは、パラメータフリーなテキストゲートインタラクションブロック(TIB)を設計し、詳細なビデオ表現学習を行う。
検索段階では、上位k候補を高速にリコールするために粗粒度映像表現を使用し、その後、細粒度映像表現によって再帰する。
論文 参考訳(メタデータ) (2024-01-01T08:54:18Z) - Cross-modal Contrastive Learning with Asymmetric Co-attention Network
for Video Moment Retrieval [0.17590081165362778]
ビデオモーメント検索は、ビデオとテキストの微妙な相互作用を必要とする課題である。
画像テキスト事前学習における最近の研究により、既存の事前学習モデルのほとんどは、視覚的シーケンスとテキストシーケンスの長さの違いにより、情報非対称性に悩まされていることが示されている。
我々は、空間情報と時間情報の両方を保存するのに補助的な必要性のあるビデオテキスト領域にも、同様の問題が存在しているかどうかを疑問視する。
論文 参考訳(メタデータ) (2023-12-12T17:00:46Z) - Multi-Modal Interaction Graph Convolutional Network for Temporal
Language Localization in Videos [55.52369116870822]
本稿では,ビデオにおける時間的言語ローカライゼーションの問題に対処することに焦点を当てる。
自然言語文で記述された瞬間の始点と終点を、未編集のビデオで識別することを目的としている。
論文 参考訳(メタデータ) (2021-10-12T14:59:25Z) - Multi-Granularity Network with Modal Attention for Dense Affective
Understanding [11.076925361793556]
近年の脳波課題では,感情理解の深層化が提案され,フレームレベルの感情予測が求められている。
目的のフレームをよりよく記述するために,多粒度特徴を用いた多粒度ネットワーク(MGN-MA)を提案する。
提案手法はEEVチャレンジにおいて0.02292の相関値を得る。
論文 参考訳(メタデータ) (2021-06-18T07:37:06Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z) - Convolutional Hierarchical Attention Network for Query-Focused Video
Summarization [74.48782934264094]
本稿では、ユーザのクエリと長いビデオを入力として取り込む、クエリ中心のビデオ要約の課題に対処する。
本稿では,特徴符号化ネットワークとクエリ関連計算モジュールの2つの部分からなる畳み込み階層型注意ネットワーク(CHAN)を提案する。
符号化ネットワークでは,局所的な自己認識機構と問合せ対応のグローバルアテンション機構を備えた畳み込みネットワークを用いて,各ショットの視覚情報を学習する。
論文 参考訳(メタデータ) (2020-01-31T04:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。