論文の概要: Multimodal Fusion and Coherence Modeling for Video Topic Segmentation
- arxiv url: http://arxiv.org/abs/2408.00365v2
- Date: Mon, 30 Dec 2024 02:50:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:02:11.334743
- Title: Multimodal Fusion and Coherence Modeling for Video Topic Segmentation
- Title(参考訳): ビデオトピックセグメンテーションのためのマルチモーダル融合とコヒーレンスモデリング
- Authors: Hai Yu, Chong Deng, Qinglin Zhang, Jiaqing Liu, Qian Chen, Wen Wang,
- Abstract要約: ビデオトピックセグメンテーション(VTS)タスクは、ビデオを理解不能で重複しないトピックにセグメントする。
VTSは、下流の様々なビデオ理解タスクに欠かせない。
我々はマルチモーダル融合とマルチモーダルコヒーレンスモデリングにより教師付きVTSを改善する。
- 参考スコア(独自算出の注目度): 18.217375601357364
- License:
- Abstract: The video topic segmentation (VTS) task segments videos into intelligible, non-overlapping topics, facilitating efficient comprehension of video content and quick access to specific content. VTS is also critical to various downstream video understanding tasks. Traditional VTS methods using shallow features or unsupervised approaches struggle to accurately discern the nuances of topical transitions. Recently, supervised approaches have achieved superior performance on video action or scene segmentation over unsupervised approaches. In this work, we improve supervised VTS by thoroughly exploring multimodal fusion and multimodal coherence modeling. Specifically, (1) we enhance multimodal fusion by exploring different architectures using cross-attention and mixture of experts. (2) To generally strengthen multimodality alignment and fusion, we pre-train and fine-tune the model with multimodal contrastive learning. (3) We propose a new pre-training task tailored for the VTS task, and a novel fine-tuning task for enhancing multimodal coherence modeling for VTS. We evaluate the proposed approaches on educational videos, in the form of lectures, due to the vital role of topic segmentation of educational videos in boosting learning experiences. Additionally, we introduce a large-scale Chinese lecture video dataset to augment the existing English corpus, promoting further research in VTS. Experiments on both English and Chinese lecture datasets demonstrate that our model achieves superior VTS performance compared to competitive unsupervised and supervised baselines.
- Abstract(参考訳): ビデオトピックセグメンテーション(VTS)タスクは、ビデオを理解不能で重複しないトピックに分割し、ビデオコンテンツの効率的な理解と特定のコンテンツへの迅速なアクセスを容易にする。
VTSは、下流の様々なビデオ理解タスクにも重要である。
浅い特徴や教師なしアプローチを用いた従来のVTS手法は、トピック遷移のニュアンスを正確に識別するのに苦労する。
近年,教師なしアプローチよりも映像アクションやシーンセグメンテーションにおいて,教師なしアプローチの方が優れたパフォーマンスを実現している。
本研究では,マルチモーダル融合とマルチモーダルコヒーレンスモデリングを徹底的に検討することにより,教師付きVTSを改善する。
具体的には,(1)クロスアテンションと専門家の混在を利用して異なるアーキテクチャを探索し,マルチモーダル融合を強化する。
2)マルチモーダルなアライメントと融合を一般的に強化するために,マルチモーダルなコントラスト学習を用いてモデルを事前学習し,微調整する。
(3) VTSタスクに適した新しい事前学習タスクと,VTSのマルチモーダルコヒーレンスモデリングを強化するためのファインチューニングタスクを提案する。
本研究は,教育ビデオのトピックセグメンテーションが学習体験の促進に重要な役割を担っていることを理由に,講義の形で,教育ビデオに対する提案されたアプローチを評価する。
さらに,既存の英語コーパスを拡張するため,大規模な中国語講義ビデオデータセットを導入し,VTSのさらなる研究を促進する。
英語と中国語の講義データセットを用いた実験により,我々のモデルは,教師なしベースラインと教師なしベースラインの競合に比べ,優れたVTS性能が得られることが示された。
関連論文リスト
- VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。
検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。
マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文 参考訳(メタデータ) (2024-07-08T18:12:49Z) - Tuning Large Multimodal Models for Videos using Reinforcement Learning from AI Feedback [38.708690624594794]
ビデオとテキストのマルチモーダルアライメントは、主にマルチモーダル命令・チューンデータのボリュームと品質が不足しているため、依然として困難である。
本稿では,AIフィードバックからの強化学習(Reinforcement Learning from AI Feedback, RLAIF)と呼ばれる,マルチモーダルAIシステムを用いた新たなアライメント戦略を提案する。
具体的には、嗜好フィードバックの生成中に、詳細な映像記述を文脈として提供することによって、文脈対応報酬モデルを提案する。
論文 参考訳(メタデータ) (2024-02-06T06:27:40Z) - Training-Free Action Recognition and Goal Inference with Dynamic Frame Selection [51.004020874336284]
VidTFSはトレーニング不要でオープンなビデオ目標とアクション推論フレームワークである。
提案するフレーム選択モジュールは,フレームワークの性能を大幅に向上させることを示す。
提案したVidTFSの性能を,広範に使用されている4つのビデオデータセット上で検証する。
論文 参考訳(メタデータ) (2024-01-23T03:45:05Z) - VLAB: Enhancing Video Language Pre-training by Feature Adapting and
Blending [78.1399386935455]
CLIPのような大規模画像テキストコントラスト事前学習モデルは、高品質なマルチモーダル表現を効果的に学習することが実証されている。
本稿では,VLAB(VLAB: Video Language pre-training by feature generativeality and Blending)という新しいビデオテキスト事前学習手法を提案する。
VLABはCLIP表現をビデオ事前訓練タスクに転送し、幅広いビデオテキストタスクのための統合ビデオマルチモーダルモデルを開発する。
論文 参考訳(メタデータ) (2023-05-22T15:54:22Z) - Advancing High-Resolution Video-Language Representation with Large-Scale
Video Transcriptions [31.4943447481144]
本稿では,共同学習と言語学習(VL)について検討し,モダリティ間の学習を可能とし,多くの下流作業に役立てる。
本モデルでは,10の理解タスクと2の新たなテキスト・ビジュアル生成タスクを実現する。
論文 参考訳(メタデータ) (2021-11-19T17:36:01Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z) - Understanding Chinese Video and Language via Contrastive Multimodal
Pre-Training [79.88705563918413]
VICTORという新しいビデオ言語理解フレームワークを提案します。VICTORは対比mulTimOdal pRe-trainingによる視覚言語理解の略です。
VICTORは、対応する高品質のテキスト記述を備えた1000万以上の完全なビデオを含む大規模な中国のビデオ言語データセットで訓練されています。
論文 参考訳(メタデータ) (2021-04-19T15:58:45Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。