論文の概要: Enhancing Video Memorability Prediction with Text-Motion Cross-modal Contrastive Loss and Its Application in Video Summarization
- arxiv url: http://arxiv.org/abs/2506.08649v1
- Date: Tue, 10 Jun 2025 10:01:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.268739
- Title: Enhancing Video Memorability Prediction with Text-Motion Cross-modal Contrastive Loss and Its Application in Video Summarization
- Title(参考訳): テキスト移動型クロスモーダルコントラスト損失によるビデオ記憶可能性予測の強化と映像要約への応用
- Authors: Zhiyi Zhu, Xiaoyu Wu, Youwei Lu,
- Abstract要約: マルチモーダルビデオ記憶可能性予測モデルであるText-Motion Cross-modal Contrastive Loss (TMCCL)を導入する。
動画間のテキスト記述の類似性を生かして、動作特徴表現を改善するという課題に取り組む。
本モデルは,2つのビデオ記憶可能性予測データセットの最先端性能を実現する。
- 参考スコア(独自算出の注目度): 3.145491389580349
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video memorability refers to the ability of videos to be recalled after viewing, playing a crucial role in creating content that remains memorable. Existing models typically focus on extracting multimodal features to predict video memorability scores but often fail to fully utilize motion cues. The representation of motion features is compromised during the fine-tuning phase of the motion feature extractor due to a lack of labeled data. In this paper, we introduce the Text-Motion Cross-modal Contrastive Loss (TMCCL), a multimodal video memorability prediction model designed to enhance the representation of motion features. We tackle the challenge of improving motion feature representation by leveraging text description similarities across videos to establish positive and negative motion sample sets for a given target. This enhancement allows the model to learn similar feature representations for semantically related motion content, resulting in more accurate memorability predictions. Our model achieves state-of-the-art performance on two video memorability prediction datasets. Moreover, the potential applications of video memorability prediction have been underexplored. To address this gap, we present Memorability Weighted Correction for Video Summarization (MWCVS), using video memorability prediction to reduce subjectivity in video summarization labels. Experimental results on two video summarization datasets demonstrate the effectiveness of MWCVS, showcasing the promising applications of video memorability prediction.
- Abstract(参考訳): ビデオの記憶力とは、視聴後にビデオがリコールされる能力のことであり、記憶に残るコンテンツを作成する上で重要な役割を担っている。
既存のモデルは、ビデオの記憶可能性のスコアを予測するためにマルチモーダルな特徴を抽出することに重点を置いているが、しばしばモーションキューを完全に活用できない。
ラベル付きデータの欠如により、動作特徴抽出器の微調整段階において、動作特徴の表現が損なわれる。
本稿では,動作特徴の表現性を高めるために設計されたマルチモーダルビデオ記憶可能性予測モデルであるテキスト・モーション・クロスモーダル・コントラシティブ・ロス(TMCCL)を紹介する。
本研究では,動画間のテキスト記述の類似性を活かし,対象物に対する正と負の動作サンプルセットを確立することで,動作特徴表現の改善に挑戦する。
この拡張により、モデルが意味論的に関連付けられた動作内容の類似した特徴表現を学習することができ、より正確な記憶可能性予測がもたらされる。
本モデルは,2つのビデオ記憶可能性予測データセットの最先端性能を実現する。
さらに、ビデオ記憶可能性予測の潜在的な応用については、未検討である。
このギャップに対処するために,ビデオ要約ラベルの主観性を低減するために,ビデオ記憶可能性予測を用いたMWCVS(Memorability Weighted Correction for Video Summarization)を提案する。
2つのビデオ要約データセットの実験結果はMWCVSの有効性を示し、ビデオ記憶可能性予測の有望な応用を示す。
関連論文リスト
- Unified Video Action Model [47.88377984526902]
統合されたビデオとアクションモデルは、アクション予測のためのリッチなシーン情報を提供するロボット工学にとって重要な約束である。
我々は,映像とアクションの予測を協調的に最適化し,高精度かつ効率的なアクション推論を実現するUnified Video Action Model (UVA)を提案する。
広範な実験により、UVAは幅広いロボティクスタスクの汎用的なソリューションとして機能できることが実証された。
論文 参考訳(メタデータ) (2025-02-28T21:38:17Z) - VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models [71.9811050853964]
VideoJAMは、ビデオジェネレータの前に効果的な動きを注入する新しいフレームワークである。
VideoJAMは動きコヒーレンスにおける最先端のパフォーマンスを達成する。
これらの知見は、外観と動きが相補的であり、効果的に統合されると、映像生成の視覚的品質とコヒーレンスの両方を高めることを強調した。
論文 参考訳(メタデータ) (2025-02-04T17:07:10Z) - MoTrans: Customized Motion Transfer with Text-driven Video Diffusion Models [59.10171699717122]
MoTransは、新しいコンテキストにおける類似した動きのビデオ生成を可能にする、カスタマイズされたモーション転送方式である。
再カプセル化されたプロンプトとビデオフレームからのマルチモーダル表現は、外観のモデリングを促進する。
本手法は, 特定の動きパターンを, 単一の参照ビデオや複数参照ビデオから効果的に学習する。
論文 参考訳(メタデータ) (2024-12-02T10:07:59Z) - Vamos: Versatile Action Models for Video Understanding [23.631145570126268]
「多元的行動モデル(Vamos)は、大言語モデルを利用した学習フレームワークである。」
Ego4D,NeXT-QA,IntentQA,Spacewalk-18,Egoの5つのベンチマークでVamosを評価する。
論文 参考訳(メタデータ) (2023-11-22T17:44:24Z) - Conditional Modeling Based Automatic Video Summarization [70.96973928590958]
ビデオ要約の目的は、全体を伝えるのに必要な重要な情報を保持しながら、自動的にビデオを短縮することである。
映像要約法は視覚的連続性や多様性などの視覚的要因に依存しており、ビデオの内容を完全に理解するには不十分である。
映像要約への新たなアプローチは、人間が地上の真実のビデオ要約を作成する方法から得られる知見に基づいて提案されている。
論文 参考訳(メタデータ) (2023-11-20T20:24:45Z) - Causal Video Summarizer for Video Exploration [74.27487067877047]
Causal Video Summarizer (CVS) はビデオとクエリ間の対話的な情報をキャプチャするために提案されている。
既存のマルチモーダル映像要約データセットの評価から,提案手法が有効であることを示す実験結果が得られた。
論文 参考訳(メタデータ) (2023-07-04T22:52:16Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - Dual-MTGAN: Stochastic and Deterministic Motion Transfer for
Image-to-Video Synthesis [38.41763708731513]
本稿では,映像データと映像データを入力として取り込むDual Motion Transfer GAN(Dual-MTGAN)を提案する。
我々のDual-MTGANは、決定論的モーショントランスファーとモーションジェネレーションを行うことができる。
提案モデルは、ポーズや顔のランドマークのような事前定義された動作特徴を利用することなく、エンドツーエンドでトレーニングされる。
論文 参考訳(メタデータ) (2021-02-26T06:54:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。