論文の概要: Towards Balanced Alignment: Modal-Enhanced Semantic Modeling for Video
Moment Retrieval
- arxiv url: http://arxiv.org/abs/2312.12155v1
- Date: Tue, 19 Dec 2023 13:38:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 15:26:49.371834
- Title: Towards Balanced Alignment: Modal-Enhanced Semantic Modeling for Video
Moment Retrieval
- Title(参考訳): バランスアライメントに向けて:ビデオモーメント検索のためのモーダル強化セマンティックモデリング
- Authors: Zhihang Liu, Jun Li, Hongtao Xie, Pandeng Li, Jiannan Ge, Sun-Ao Liu,
Guoqing Jin
- Abstract要約: Video Moment Retrieval (VMR) は、与えられた言語クエリに対応する未トリミングビデオの時間セグメントを検索することを目的としている。
既存の戦略は、モダリティの不均衡問題を無視するため、しばしば準最適である。
我々は、よりバランスの取れたアライメントのための新しいフレームワークである、Modal-Enhanced Semantic Modeling (MESM)を紹介する。
- 参考スコア(独自算出の注目度): 31.42856682276394
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Moment Retrieval (VMR) aims to retrieve temporal segments in untrimmed
videos corresponding to a given language query by constructing cross-modal
alignment strategies. However, these existing strategies are often sub-optimal
since they ignore the modality imbalance problem, \textit{i.e.}, the semantic
richness inherent in videos far exceeds that of a given limited-length
sentence. Therefore, in pursuit of better alignment, a natural idea is
enhancing the video modality to filter out query-irrelevant semantics, and
enhancing the text modality to capture more segment-relevant knowledge. In this
paper, we introduce Modal-Enhanced Semantic Modeling (MESM), a novel framework
for more balanced alignment through enhancing features at two levels. First, we
enhance the video modality at the frame-word level through word reconstruction.
This strategy emphasizes the portions associated with query words in
frame-level features while suppressing irrelevant parts. Therefore, the
enhanced video contains less redundant semantics and is more balanced with the
textual modality. Second, we enhance the textual modality at the
segment-sentence level by learning complementary knowledge from context
sentences and ground-truth segments. With the knowledge added to the query, the
textual modality thus maintains more meaningful semantics and is more balanced
with the video modality. By implementing two levels of MESM, the semantic
information from both modalities is more balanced to align, thereby bridging
the modality gap. Experiments on three widely used benchmarks, including the
out-of-distribution settings, show that the proposed framework achieves a new
start-of-the-art performance with notable generalization ability (e.g., 4.42%
and 7.69% average gains of R1@0.7 on Charades-STA and Charades-CG). The code
will be available at https://github.com/lntzm/MESM.
- Abstract(参考訳): ビデオモーメント検索 (VMR) は、モーダルなアライメント戦略を構築することで、与えられた言語クエリに対応するビデオの時間セグメントを検索することを目的としている。
しかし、これらの既存の戦略は、モダリティの不均衡問題である \textit{i.e} を無視しているため、しばしば最適ではない。
したがって、より良いアライメントを求めるために、自然なアイデアは、ビデオモダリティを強化してクエリ非関連セマンティクスをフィルタリングし、テキストモダリティを強化して、より多くのセグメント関連知識を捉えることである。
本稿では,2段階の機能強化を通じて,よりバランスのとれたアライメントを実現するための新しいフレームワークであるModal-Enhanced Semantic Modeling (MESM)を紹介する。
まず,単語再構成によりフレームワードレベルでの映像のモダリティを向上させる。
この戦略は、フレームレベルの特徴におけるクエリワードに関連する部分を強調し、無関係な部分を抑制する。
したがって、拡張ビデオは冗長な意味論をあまり含んでおらず、テキストのモダリティとよりバランスが取れている。
第2に,文脈文や接地語節から相補的知識を学習することで,セグメント文レベルでのテキストのモダリティを高める。
クエリに知識を加えることで、テキストのモダリティはより意味のあるセマンティクスを保持し、ビデオのモダリティとよりバランスをとる。
2段階のMESMを実装することにより、両方のモダリティからのセマンティック情報がバランスよく整合し、モダリティギャップを埋める。
広く使われている3つのベンチマーク(例えば、charades-staとcharades-cgにおけるr1@0.7の平均値の4.42%と7.69%)の実験では、提案されたフレームワークが、注目すべき一般化能力を持つ新しい技術起動性能を達成していることを示している。
コードはhttps://github.com/lntzm/mesmで入手できる。
関連論文リスト
- Realizing Video Summarization from the Path of Language-based Semantic Understanding [19.825666473712197]
本稿では,Mixture of Experts(MoE)パラダイムに触発された新しいビデオ要約フレームワークを提案する。
提案手法は,複数のビデオLLMを統合し,包括的で一貫性のあるテキスト要約を生成する。
論文 参考訳(メタデータ) (2024-10-06T15:03:22Z) - MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval [53.417646562344906]
Video Moment Retrieval (VMR) は、自然言語クエリが与えられた未トリミング長ビデオ内の特定の時間セグメントをローカライズすることを目的としている。
既存の方法は、しばしば不十分なトレーニングアノテーションに悩まされる。つまり、文は通常、単語の多様性が制限された前景の顕著なビデオ内容のごく一部と一致する。
この本質的なモダリティの不均衡は、視覚情報のかなりの部分がテキストと一致しないまま残されている。
本研究では,MLLMをビデオナレーターとして用いて,ビデオのテキスト記述を多用し,モダリティの不均衡を緩和し,時間的局所化を促進させる。
論文 参考訳(メタデータ) (2024-06-25T18:39:43Z) - Spatial Semantic Recurrent Mining for Referring Image Segmentation [63.34997546393106]
高品質なクロスモーダリティ融合を実現するために,Stextsuperscript2RMを提案する。
これは、言語特徴の分散、空間的意味的再帰的分離、パーセマンティック・セマンティック・バランシングという三部作の作業戦略に従う。
提案手法は他の最先端アルゴリズムに対して好適に機能する。
論文 参考訳(メタデータ) (2024-05-15T00:17:48Z) - Improving Video Corpus Moment Retrieval with Partial Relevance Enhancement [72.7576395034068]
Video Corpus Moment Retrieval(VCMR)は、テキストクエリを使って、大量の未トリミングビデオから関連する瞬間を検索するための、新しいビデオ検索タスクである。
我々は、VCMRタスクにおいて、クエリとビデオの間の部分的関係を効果的に捉えることが不可欠であると主張している。
ビデオ検索には,2つのモーダルに対して異なる問合せ表現を生成するマルチモーダル・コラボレーティブ・ビデオレトリバーを導入する。
そこで本研究では,モータリティ特異的なゲートを用いたモーメントローカライザを提案する。
論文 参考訳(メタデータ) (2024-02-21T07:16:06Z) - Zero-Shot Video Moment Retrieval from Frozen Vision-Language Models [58.17315970207874]
モーメント・テキストアライメントを容易にするため、任意のVLMから一般化可能なビジュアル・テクスチャの事前適応のためのゼロショット手法を提案する。
3つのVMRベンチマークデータセットで実施された実験は、ゼロショットアルゴリズムの顕著なパフォーマンス上の利点を示している。
論文 参考訳(メタデータ) (2023-09-01T13:06:50Z) - SOC: Semantic-Assisted Object Cluster for Referring Video Object
Segmentation [35.063881868130075]
本稿では,映像レベルの視覚言語的アライメントを高めることによって,映像オブジェクトセグメンテーション(RVOS)について述べる。
本稿では,映像コンテンツとテキストガイダンスを集約したセマンティック支援オブジェクトクラスタ(SOC)を提案する。
我々は、人気のあるRVOSベンチマークで広範な実験を行い、我々の手法は、すべてのベンチマークにおける最先端の競合よりも顕著なマージンで優れています。
論文 参考訳(メタデータ) (2023-05-26T15:13:44Z) - Boosting Video-Text Retrieval with Explicit High-Level Semantics [115.66219386097295]
VTRのための新しい視覚言語整合モデルHiSEを提案する。
明示的なハイレベルなセマンティクスを取り入れることで、クロスモーダル表現を改善する。
提案手法は,3つのベンチマークデータセット上での最先端手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-08-08T15:39:54Z) - Semantic Role Aware Correlation Transformer for Text to Video Retrieval [23.183653281610866]
本稿では,テキストや動画をオブジェクト,空間的コンテキスト,時間的コンテキストのセマンティックな役割へと明示的に切り離す新しいトランスフォーマーを提案する。
一般的なYouCook2の予備的な結果は、我々のアプローチが現在の最先端の手法を超越していることを示している。
論文 参考訳(メタデータ) (2022-06-26T11:28:03Z) - Fine-grained Iterative Attention Network for TemporalLanguage
Localization in Videos [63.94898634140878]
ビデオ中の時間的言語ローカライゼーションは、与えられた文クエリに基づいて、ビデオセグメントの1つを未トリミングビデオにグラウンドすることを目的としている。
本稿では,2つのクエリ・ビデオ・インフォーム抽出のための反復的注意モジュールからなる細粒度反復注意ネットワーク(FIAN)を提案する。
本稿では,Ac-tivityNet Captions,TACoS,Charades-STAの3つのベンチマークで提案手法を評価した。
論文 参考訳(メタデータ) (2020-08-06T04:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。