論文の概要: Language Guided Networks for Cross-modal Moment Retrieval
- arxiv url: http://arxiv.org/abs/2006.10457v2
- Date: Wed, 9 Sep 2020 05:19:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 09:58:28.330499
- Title: Language Guided Networks for Cross-modal Moment Retrieval
- Title(参考訳): モーメント検索のための言語ガイドネットワーク
- Authors: Kun Liu, Huadong Ma, and Chuang Gan
- Abstract要約: モーダルモーダルモーメント検索は、自然言語クエリによって記述された未編集ビデオから時間セグメントをローカライズすることを目的としている。
既存の手法は、ビデオや文の特徴を独立して抽出する。
本稿では,言語ガイドネットワーク(LGN, Language Guided Networks)について紹介する。
- 参考スコア(独自算出の注目度): 66.49445903955777
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the challenging task of cross-modal moment retrieval, which aims
to localize a temporal segment from an untrimmed video described by a natural
language query. It poses great challenges over the proper semantic alignment
between vision and linguistic domains. Existing methods independently extract
the features of videos and sentences and purely utilize the sentence embedding
in the multi-modal fusion stage, which do not make full use of the potential of
language. In this paper, we present Language Guided Networks (LGN), a new
framework that leverages the sentence embedding to guide the whole process of
moment retrieval. In the first feature extraction stage, we propose to jointly
learn visual and language features to capture the powerful visual information
which can cover the complex semantics in the sentence query. Specifically, the
early modulation unit is designed to modulate the visual feature extractor's
feature maps by a linguistic embedding. Then we adopt a multi-modal fusion
module in the second fusion stage. Finally, to get a precise localizer, the
sentence information is utilized to guide the process of predicting temporal
positions. Specifically, the late guidance module is developed to linearly
transform the output of localization networks via the channel attention
mechanism. The experimental results on two popular datasets demonstrate the
superior performance of our proposed method on moment retrieval (improving by
5.8\% in terms of Rank1@IoU0.5 on Charades-STA and 5.2\% on TACoS). The source
code for the complete system will be publicly available.
- Abstract(参考訳): 自然言語クエリによって記述された未編集ビデオから時間セグメントをローカライズすることを目的としたモーダルモーダルモーメント検索の課題に対処する。
視覚と言語ドメイン間の適切な意味的アライメントには大きな課題がある。
既存の手法では、ビデオと文の特徴を独立に抽出し、言語の可能性を完全に活用しないマルチモーダル融合段階に埋め込む文を純粋に利用する。
本稿では,文の埋め込みを利用してモーメント検索の全過程を案内する新しいフレームワークであるLanguage Guided Networks(LGN)を提案する。
第1の特徴抽出段階では,文クエリの複雑な意味を包含する強力な視覚情報を取り込むために,視覚機能と言語機能を同時に学習することを提案する。
具体的には、初期変調ユニットは、言語埋め込みにより視覚特徴抽出器の特徴マップを変調するように設計されている。
次に,第2融合段階においてマルチモーダル融合モジュールを採用する。
最後に、正確なローカライザを得るために、文情報を用いて、時間的位置を予測するプロセスを導く。
具体的には、チャネルアテンション機構を介してローカライズネットワークの出力を線形に変換する遅延誘導モジュールを開発した。
2つの人気のあるデータセットにおける実験結果から,提案手法のモーメント検索性能が向上した(カラードstaではrank1@iou0.5,タコスでは5.2\%向上)。
完全なシステムのソースコードは一般公開される予定だ。
関連論文リスト
- MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval [53.417646562344906]
Video Moment Retrieval (VMR) は、自然言語クエリが与えられた未トリミング長ビデオ内の特定の時間セグメントをローカライズすることを目的としている。
既存の方法は、しばしば不十分なトレーニングアノテーションに悩まされる。つまり、文は通常、単語の多様性が制限された前景の顕著なビデオ内容のごく一部と一致する。
この本質的なモダリティの不均衡は、視覚情報のかなりの部分がテキストと一致しないまま残されている。
本研究では,MLLMをビデオナレーターとして用いて,ビデオのテキスト記述を多用し,モダリティの不均衡を緩和し,時間的局所化を促進させる。
論文 参考訳(メタデータ) (2024-06-25T18:39:43Z) - Context-Aware Integration of Language and Visual References for Natural Language Tracking [27.3884348078998]
自然言語仕様(TNL)による追跡は、初期フレームに言語的記述が与えられたビデオシーケンスにおいて、ターゲットを一貫してローカライズすることを目的としている。
本稿では,1)時間的視覚的テンプレートと言語表現の相補性を活用するためのプロンプトモジュールを併用したマルチモーダルトラッキングフレームワークを提案する。
この設計は、歴史的視覚情報と統合されたソリューションを活用することで時間的一貫性を確保し、単一のステップで予測を生成する。
論文 参考訳(メタデータ) (2024-03-29T04:58:33Z) - A Dual Semantic-Aware Recurrent Global-Adaptive Network For
Vision-and-Language Navigation [3.809880620207714]
VLN(Vision-and-Language Navigation)は、エージェントが言語と視覚の手がかりを使用してターゲット領域を特定することを必要とする現実的だが困難なタスクである。
本研究は、上記の問題に対処するため、DSRG(Dual semantic-aware Recurrent Global-Adaptive Network)を提案する。
論文 参考訳(メタデータ) (2023-05-05T15:06:08Z) - Cross-Lingual Cross-Modal Retrieval with Noise-Robust Learning [25.230786853723203]
低リソース言語に対するノイズローバストな言語間クロスモーダル検索手法を提案する。
低リソース言語のための擬似並列文ペアを構築するために,機械翻訳を用いる。
ノイズロスのターゲット言語表現を学習するための多視点自己蒸留法を提案する。
論文 参考訳(メタデータ) (2022-08-26T09:32:24Z) - Modeling Motion with Multi-Modal Features for Text-Based Video
Segmentation [56.41614987789537]
テキストベースのビデオセグメンテーションは、対象のオブジェクトを記述文に基づいてビデオに分割することを目的としている。
本研究では, 正確なセグメンテーションを実現するために, 外観, 動き, 言語的特徴を融合, 整合させる手法を提案する。
論文 参考訳(メタデータ) (2022-04-06T02:42:33Z) - Progressive Localization Networks for Language-based Moment Localization [56.54450664871467]
本稿では,言語に基づくモーメントローカライゼーションの課題に焦点を当てる。
既存のほとんどの手法は、まず時間長の候補モーメントをサンプリングし、そのモーメントを決定するために与えられたクエリとマッチングする。
本稿では,ターゲットモーメントを粗い方法で段階的に局所化する多段階プログレッシブ・ローカライゼーション・ネットワーク(PLN)を提案する。
論文 参考訳(メタデータ) (2021-02-02T03:45:59Z) - Fine-grained Iterative Attention Network for TemporalLanguage
Localization in Videos [63.94898634140878]
ビデオ中の時間的言語ローカライゼーションは、与えられた文クエリに基づいて、ビデオセグメントの1つを未トリミングビデオにグラウンドすることを目的としている。
本稿では,2つのクエリ・ビデオ・インフォーム抽出のための反復的注意モジュールからなる細粒度反復注意ネットワーク(FIAN)を提案する。
本稿では,Ac-tivityNet Captions,TACoS,Charades-STAの3つのベンチマークで提案手法を評価した。
論文 参考訳(メタデータ) (2020-08-06T04:09:03Z) - Local-Global Video-Text Interactions for Temporal Grounding [77.5114709695216]
本稿では,テキストクエリに関連するビデオの時間間隔を特定することを目的とした,テキスト間時間グラウンドリングの問題に対処する。
そこで本研究では,テキストクエリにおける意味句の中間レベルの特徴の集合を抽出する,新しい回帰モデルを用いてこの問題に対処する。
提案手法は,ローカルからグローバルへのコンテキスト情報を活用することにより,目標時間間隔を効果的に予測する。
論文 参考訳(メタデータ) (2020-04-16T08:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。