論文の概要: You Need to Read Again: Multi-granularity Perception Network for Moment
Retrieval in Videos
- arxiv url: http://arxiv.org/abs/2205.12886v1
- Date: Wed, 25 May 2022 16:15:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-26 13:34:57.037399
- Title: You Need to Read Again: Multi-granularity Perception Network for Moment
Retrieval in Videos
- Title(参考訳): 再び読む必要がある:ビデオのモーメント検索のためのマルチグラニュラ性知覚ネットワーク
- Authors: Xin Sun, Xuan Wang, Jialin Gao, Qiong Liu, Xi Zhou
- Abstract要約: 本稿では,多粒度レベルでモダリティ内およびモダリティ間情報を知覚する新しい多粒度知覚ネットワーク(MGPN)を提案する。
具体的には、モーメント検索を多選択読解タスクとして定式化し、人間の読解戦略をフレームワークに統合する。
- 参考スコア(独自算出の注目度): 19.711703590063976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Moment retrieval in videos is a challenging task that aims to retrieve the
most relevant video moment in an untrimmed video given a sentence description.
Previous methods tend to perform self-modal learning and cross-modal
interaction in a coarse manner, which neglect fine-grained clues contained in
video content, query context, and their alignment. To this end, we propose a
novel Multi-Granularity Perception Network (MGPN) that perceives intra-modality
and inter-modality information at a multi-granularity level. Specifically, we
formulate moment retrieval as a multi-choice reading comprehension task and
integrate human reading strategies into our framework. A coarse-grained feature
encoder and a co-attention mechanism are utilized to obtain a preliminary
perception of intra-modality and inter-modality information. Then a
fine-grained feature encoder and a conditioned interaction module are
introduced to enhance the initial perception inspired by how humans address
reading comprehension problems. Moreover, to alleviate the huge computation
burden of some existing methods, we further design an efficient choice
comparison module and reduce the hidden size with imperceptible quality loss.
Extensive experiments on Charades-STA, TACoS, and ActivityNet Captions datasets
demonstrate that our solution outperforms existing state-of-the-art methods.
- Abstract(参考訳): 動画におけるモーメント検索は,文章記述が与えられたビデオにおいて,最も関連性の高い映像モーメントを検索することを目的とした課題である。
従来の手法では、ビデオコンテンツ、クエリコンテキスト、およびそれらのアライメントに含まれるきめ細かい手がかりを無視する、粗い方法で自己モーダル学習と相互モーダル相互作用を行う傾向があった。
この目的のために,多粒度レベルでモダリティ内およびモダリティ間情報を知覚する新しい多言語知覚ネットワーク(MGPN)を提案する。
具体的には,モーメント検索を多段読解タスクとして定式化し,人間の読解戦略をフレームワークに統合する。
粒度の粗い特徴エンコーダとコアテンション機構を利用して、モダリティ内およびモダリティ間情報の予備的な知覚を得る。
次に、人間の読解理解問題への対処方法に触発された初期知覚を高めるために、きめ細かい特徴エンコーダと条件付き相互作用モジュールを導入する。
さらに,既存手法の膨大な計算負荷を軽減するため,効率的な選択比較モジュールの設計と,非知覚的品質損失による隠れサイズを削減する。
Charades-STA、TACoS、ActivityNet Captionsのデータセットに関する大規模な実験は、我々のソリューションが既存の最先端手法よりも優れていることを示している。
関連論文リスト
- The Surprising Effectiveness of Multimodal Large Language Models for Video Moment Retrieval [0.0]
ビデオ言語タスクは空間的・時間的理解を必要とし、かなりの計算を必要とする。
本研究は,画像テキスト事前学習MLLMをモーメント検索に活用することの驚くべき有効性を示す。
我々は、Charades-STA、QVHighlights、ActivityNet Captionsといった広く使われているベンチマーク上で、新しい最先端のモーメント検索を実現する。
論文 参考訳(メタデータ) (2024-06-26T06:59:09Z) - MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval [53.417646562344906]
Video Moment Retrieval (VMR) は、自然言語クエリが与えられた未トリミング長ビデオ内の特定の時間セグメントをローカライズすることを目的としている。
既存の方法は、しばしば不十分なトレーニングアノテーションに悩まされる。つまり、文は通常、単語の多様性が制限された前景の顕著なビデオ内容のごく一部と一致する。
この本質的なモダリティの不均衡は、視覚情報のかなりの部分がテキストと一致しないまま残されている。
本研究では,MLLMをビデオナレーターとして用いて,ビデオのテキスト記述を多用し,モダリティの不均衡を緩和し,時間的局所化を促進させる。
論文 参考訳(メタデータ) (2024-06-25T18:39:43Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Towards Efficient and Effective Text-to-Video Retrieval with
Coarse-to-Fine Visual Representation Learning [15.998149438353133]
テキスト間検索のための2段階検索アーキテクチャを提案する。
トレーニングフェーズでは、パラメータフリーなテキストゲートインタラクションブロック(TIB)を設計し、詳細なビデオ表現学習を行う。
検索段階では、上位k候補を高速にリコールするために粗粒度映像表現を使用し、その後、細粒度映像表現によって再帰する。
論文 参考訳(メタデータ) (2024-01-01T08:54:18Z) - Cross-modal Contrastive Learning with Asymmetric Co-attention Network
for Video Moment Retrieval [0.17590081165362778]
ビデオモーメント検索は、ビデオとテキストの微妙な相互作用を必要とする課題である。
画像テキスト事前学習における最近の研究により、既存の事前学習モデルのほとんどは、視覚的シーケンスとテキストシーケンスの長さの違いにより、情報非対称性に悩まされていることが示されている。
我々は、空間情報と時間情報の両方を保存するのに補助的な必要性のあるビデオテキスト領域にも、同様の問題が存在しているかどうかを疑問視する。
論文 参考訳(メタデータ) (2023-12-12T17:00:46Z) - Hierarchical Deep Residual Reasoning for Temporal Moment Localization [48.108468456043994]
ビデオと文を異なる意味を持つマルチレベル表現に分解する階層的深層残響推論(HDRR)モデルを提案する。
また,機能融合のための簡易かつ効果的なRes-BiGRUを設計し,自己適応的に有用な情報を把握できる。
論文 参考訳(メタデータ) (2021-10-31T07:13:34Z) - Multi-Modal Interaction Graph Convolutional Network for Temporal
Language Localization in Videos [55.52369116870822]
本稿では,ビデオにおける時間的言語ローカライゼーションの問題に対処することに焦点を当てる。
自然言語文で記述された瞬間の始点と終点を、未編集のビデオで識別することを目的としている。
論文 参考訳(メタデータ) (2021-10-12T14:59:25Z) - Multi-Granularity Network with Modal Attention for Dense Affective
Understanding [11.076925361793556]
近年の脳波課題では,感情理解の深層化が提案され,フレームレベルの感情予測が求められている。
目的のフレームをよりよく記述するために,多粒度特徴を用いた多粒度ネットワーク(MGN-MA)を提案する。
提案手法はEEVチャレンジにおいて0.02292の相関値を得る。
論文 参考訳(メタデータ) (2021-06-18T07:37:06Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z) - Convolutional Hierarchical Attention Network for Query-Focused Video
Summarization [74.48782934264094]
本稿では、ユーザのクエリと長いビデオを入力として取り込む、クエリ中心のビデオ要約の課題に対処する。
本稿では,特徴符号化ネットワークとクエリ関連計算モジュールの2つの部分からなる畳み込み階層型注意ネットワーク(CHAN)を提案する。
符号化ネットワークでは,局所的な自己認識機構と問合せ対応のグローバルアテンション機構を備えた畳み込みネットワークを用いて,各ショットの視覚情報を学習する。
論文 参考訳(メタデータ) (2020-01-31T04:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。