Fugu-MT 論文翻訳(概要): You Need to Read Again: Multi-granularity Perception Network for Moment Retrieval in Videos

論文の概要: You Need to Read Again: Multi-granularity Perception Network for Moment Retrieval in Videos

arxiv url: http://arxiv.org/abs/2205.12886v1
Date: Wed, 25 May 2022 16:15:46 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-26 13:34:57.037399
Title: You Need to Read Again: Multi-granularity Perception Network for Moment Retrieval in Videos
Title（参考訳）: 再び読む必要がある:ビデオのモーメント検索のためのマルチグラニュラ性知覚ネットワーク
Authors: Xin Sun, Xuan Wang, Jialin Gao, Qiong Liu, Xi Zhou
Abstract要約: 本稿では,多粒度レベルでモダリティ内およびモダリティ間情報を知覚する新しい多粒度知覚ネットワーク(MGPN)を提案する。具体的には、モーメント検索を多選択読解タスクとして定式化し、人間の読解戦略をフレームワークに統合する。
参考スコア（独自算出の注目度）: 19.711703590063976
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Moment retrieval in videos is a challenging task that aims to retrieve the most relevant video moment in an untrimmed video given a sentence description. Previous methods tend to perform self-modal learning and cross-modal interaction in a coarse manner, which neglect fine-grained clues contained in video content, query context, and their alignment. To this end, we propose a novel Multi-Granularity Perception Network (MGPN) that perceives intra-modality and inter-modality information at a multi-granularity level. Specifically, we formulate moment retrieval as a multi-choice reading comprehension task and integrate human reading strategies into our framework. A coarse-grained feature encoder and a co-attention mechanism are utilized to obtain a preliminary perception of intra-modality and inter-modality information. Then a fine-grained feature encoder and a conditioned interaction module are introduced to enhance the initial perception inspired by how humans address reading comprehension problems. Moreover, to alleviate the huge computation burden of some existing methods, we further design an efficient choice comparison module and reduce the hidden size with imperceptible quality loss. Extensive experiments on Charades-STA, TACoS, and ActivityNet Captions datasets demonstrate that our solution outperforms existing state-of-the-art methods.
Abstract（参考訳）: 動画におけるモーメント検索は,文章記述が与えられたビデオにおいて,最も関連性の高い映像モーメントを検索することを目的とした課題である。従来の手法では、ビデオコンテンツ、クエリコンテキスト、およびそれらのアライメントに含まれるきめ細かい手がかりを無視する、粗い方法で自己モーダル学習と相互モーダル相互作用を行う傾向があった。この目的のために,多粒度レベルでモダリティ内およびモダリティ間情報を知覚する新しい多言語知覚ネットワーク(MGPN)を提案する。具体的には,モーメント検索を多段読解タスクとして定式化し,人間の読解戦略をフレームワークに統合する。粒度の粗い特徴エンコーダとコアテンション機構を利用して、モダリティ内およびモダリティ間情報の予備的な知覚を得る。次に、人間の読解理解問題への対処方法に触発された初期知覚を高めるために、きめ細かい特徴エンコーダと条件付き相互作用モジュールを導入する。さらに,既存手法の膨大な計算負荷を軽減するため,効率的な選択比較モジュールの設計と,非知覚的品質損失による隠れサイズを削減する。 Charades-STA、TACoS、ActivityNet Captionsのデータセットに関する大規模な実験は、我々のソリューションが既存の最先端手法よりも優れていることを示している。

関連論文リスト

Towards Efficient Partially Relevant Video Retrieval with Active Moment Discovering [36.94781787191615]
能動モーメント探索(AMDNet)を用いた簡易かつ効果的な手法を提案する。私たちは、彼らのクエリとセマンティックに一致したビデオモーメントを見つけることを約束しています。 2つの大規模なビデオデータセットの実験は、AMDNetの優位性と効率性を示している。
論文参考訳（メタデータ） (2025-04-15T07:00:18Z)
Learning Motion and Temporal Cues for Unsupervised Video Object Segmentation [49.113131249753714]
本稿では,動きと時間的手がかりを同時に活用する,MTNetと呼ばれる効率的なアルゴリズムを提案する。 MTNetは、エンコーダ内の特徴抽出過程において、外観と動作の特徴を効果的にマージすることによって考案される。派生した機能を最適に活用するために、すべての機能レベルのデコーダのカスケードを使用します。
論文参考訳（メタデータ） (2025-01-14T03:15:46Z)
Hierarchical Banzhaf Interaction for General Video-Language Representation Learning [60.44337740854767]
マルチモーダル表現学習は人工知能領域において重要な役割を担っている。本稿では,多変量協調ゲーム理論を用いて,ビデオテキストをゲームプレイヤーとしてモデル化する手法を提案する。元の構造をフレキシブルなエンコーダ・デコーダ・フレームワークに拡張し、モデルが様々な下流タスクに適応できるようにする。
論文参考訳（メタデータ） (2024-12-30T14:09:15Z)
Query-centric Audio-Visual Cognition Network for Moment Retrieval, Segmentation and Step-Captioning [56.873534081386]
ビデオ検索、モーメント検索、モーメントセグメンテーション、ステップキャプションを含む新しいトピックHIRESTが紹介されている。 3つのタスクに対して信頼性の高いマルチモーダル表現を構築するために,クエリ中心の音声視覚認知ネットワークを提案する。これにより、ユーザが優先するコンテンツを認識し、3つのタスクに対してクエリ中心の音声視覚表現を実現することができる。
論文参考訳（メタデータ） (2024-12-18T06:43:06Z)
Detecting Misinformation in Multimedia Content through Cross-Modal Entity Consistency: A Dual Learning Approach [10.376378437321437]
クロスモーダルなエンティティの整合性を利用して、ビデオコンテンツから誤情報を検出するためのマルチメディア誤情報検出フレームワークを提案する。以上の結果から,MultiMDは最先端のベースラインモデルより優れていることが示された。
論文参考訳（メタデータ） (2024-08-16T16:14:36Z)
Bridging Information Asymmetry in Text-video Retrieval: A Data-centric Approach [56.610806615527885]
テキストビデオ検索(TVR)における重要な課題は、ビデオとテキスト間の情報非対称性である。本稿では,このギャップを埋めるために,テキスト表現を豊かにすることで,映像コンテンツの豊かさに合わせたデータ中心のフレームワークを提案する。本稿では,最も関連性が高く多様なクエリを識別し,計算コストを低減し,精度を向上するクエリ選択機構を提案する。
論文参考訳（メタデータ） (2024-08-14T01:24:09Z)
The Surprising Effectiveness of Multimodal Large Language Models for Video Moment Retrieval [36.516226519328015]
ビデオ言語タスクは空間的・時間的理解を必要とし、かなりの計算を必要とする。本研究は,画像テキスト事前学習MLLMをモーメント検索に活用することの驚くべき有効性を示す。我々は、Charades-STA、QVHighlights、ActivityNet Captionsといった広く使われているベンチマーク上で、新しい最先端のモーメント検索を実現する。
論文参考訳（メタデータ） (2024-06-26T06:59:09Z)
MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval [53.417646562344906]
Video Moment Retrieval (VMR) は、自然言語クエリが与えられた未トリミング長ビデオ内の特定の時間セグメントをローカライズすることを目的としている。既存の方法は、しばしば不十分なトレーニングアノテーションに悩まされる。つまり、文は通常、単語の多様性が制限された前景の顕著なビデオ内容のごく一部と一致する。この本質的なモダリティの不均衡は、視覚情報のかなりの部分がテキストと一致しないまま残されている。本研究では,MLLMをビデオナレーターとして用いて,ビデオのテキスト記述を多用し,モダリティの不均衡を緩和し,時間的局所化を促進させる。
論文参考訳（メタデータ） (2024-06-25T18:39:43Z)
Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。 GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文参考訳（メタデータ） (2024-05-21T11:59:36Z)
Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文参考訳（メタデータ） (2024-03-19T17:59:52Z)
Towards Efficient and Effective Text-to-Video Retrieval with Coarse-to-Fine Visual Representation Learning [15.998149438353133]
テキスト間検索のための2段階検索アーキテクチャを提案する。トレーニングフェーズでは、パラメータフリーなテキストゲートインタラクションブロック(TIB)を設計し、詳細なビデオ表現学習を行う。検索段階では、上位k候補を高速にリコールするために粗粒度映像表現を使用し、その後、細粒度映像表現によって再帰する。
論文参考訳（メタデータ） (2024-01-01T08:54:18Z)
Cross-modal Contrastive Learning with Asymmetric Co-attention Network for Video Moment Retrieval [0.17590081165362778]
ビデオモーメント検索は、ビデオとテキストの微妙な相互作用を必要とする課題である。画像テキスト事前学習における最近の研究により、既存の事前学習モデルのほとんどは、視覚的シーケンスとテキストシーケンスの長さの違いにより、情報非対称性に悩まされていることが示されている。我々は、空間情報と時間情報の両方を保存するのに補助的な必要性のあるビデオテキスト領域にも、同様の問題が存在しているかどうかを疑問視する。
論文参考訳（メタデータ） (2023-12-12T17:00:46Z)
Multi-Modal Interaction Graph Convolutional Network for Temporal Language Localization in Videos [55.52369116870822]
本稿では,ビデオにおける時間的言語ローカライゼーションの問題に対処することに焦点を当てる。自然言語文で記述された瞬間の始点と終点を、未編集のビデオで識別することを目的としている。
論文参考訳（メタデータ） (2021-10-12T14:59:25Z)
Multi-Granularity Network with Modal Attention for Dense Affective Understanding [11.076925361793556]
近年の脳波課題では,感情理解の深層化が提案され,フレームレベルの感情予測が求められている。目的のフレームをよりよく記述するために,多粒度特徴を用いた多粒度ネットワーク(MGN-MA)を提案する。提案手法はEEVチャレンジにおいて0.02292の相関値を得る。
論文参考訳（メタデータ） (2021-06-18T07:37:06Z)
Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文参考訳（メタデータ） (2020-06-12T14:07:04Z)
Convolutional Hierarchical Attention Network for Query-Focused Video Summarization [74.48782934264094]
本稿では、ユーザのクエリと長いビデオを入力として取り込む、クエリ中心のビデオ要約の課題に対処する。本稿では,特徴符号化ネットワークとクエリ関連計算モジュールの2つの部分からなる畳み込み階層型注意ネットワーク(CHAN)を提案する。符号化ネットワークでは,局所的な自己認識機構と問合せ対応のグローバルアテンション機構を備えた畳み込みネットワークを用いて,各ショットの視覚情報を学習する。
論文参考訳（メタデータ） (2020-01-31T04:30:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。