論文の概要: MEGA: Multimodal Alignment Aggregation and Distillation For Cinematic
Video Segmentation
- arxiv url: http://arxiv.org/abs/2308.11185v1
- Date: Tue, 22 Aug 2023 04:23:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 19:18:45.660579
- Title: MEGA: Multimodal Alignment Aggregation and Distillation For Cinematic
Video Segmentation
- Title(参考訳): mega:マルチモーダルアライメントアライメントアグリゲーションと蒸留による映像セグメンテーション
- Authors: Najmeh Sadoughi, Xinyu Li, Avijit Vajpayee, David Fan, Bing Shuai,
Hector Santos-Villalobos, Vimal Bhat, Rohith MV
- Abstract要約: 撮影用長ビデオセグメンテーションのためのマルチモーダルアライメント(MultimodalalignedmEnt aGregation and distillAtion,MEGA)を提案する。
可変長と異なるモードの入力をアライメント位置符号化で粗いアライメントする。
MEGAは、モダリティ間でラベルを同期し、転送するために、新しい対照的な損失を採用しており、ビデオショット上のラベル付きシナプス文からのアクセグメンテーションを可能にしている。
- 参考スコア(独自算出の注目度): 10.82074185158027
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Previous research has studied the task of segmenting cinematic videos into
scenes and into narrative acts. However, these studies have overlooked the
essential task of multimodal alignment and fusion for effectively and
efficiently processing long-form videos (>60min). In this paper, we introduce
Multimodal alignmEnt aGgregation and distillAtion (MEGA) for cinematic
long-video segmentation. MEGA tackles the challenge by leveraging multiple
media modalities. The method coarsely aligns inputs of variable lengths and
different modalities with alignment positional encoding. To maintain temporal
synchronization while reducing computation, we further introduce an enhanced
bottleneck fusion layer which uses temporal alignment. Additionally, MEGA
employs a novel contrastive loss to synchronize and transfer labels across
modalities, enabling act segmentation from labeled synopsis sentences on video
shots. Our experimental results show that MEGA outperforms state-of-the-art
methods on MovieNet dataset for scene segmentation (with an Average Precision
improvement of +1.19%) and on TRIPOD dataset for act segmentation (with a Total
Agreement improvement of +5.51%)
- Abstract(参考訳): これまでの研究は、映画ビデオをシーンに分割し、物語的行為に分割するタスクを研究してきた。
しかし,これらの研究は,長尺ビデオ (>60min) を効果的かつ効率的に処理するためのマルチモーダルアライメントと融合の必須課題を見逃している。
本稿では,映画的ロングビデオセグメンテーションのためのマルチモーダルアライメントアグリゲーションと蒸留(mega)について紹介する。
megaは複数のメディアモダリティを活用することで課題に取り組む。
可変長と異なるモダリティの入力をアライメント位置符号化により粗調整する。
計算量を減らしつつ時間同期を維持するため,時間アライメントを用いた改良型ボトルネック融合層も導入する。
さらにmegaは、モダリティ間のラベルの同期と転送のために、新しいコントラスト損失を採用しており、ビデオショット上のラベル付きシナプス文からのアクトセグメンテーションを可能にしている。
実験の結果,MEGAはシーンセグメンテーションのためのMovieNetデータセット(平均精度+1.19%)および行動セグメンテーションのためのTRIPODデータセット(総コンセンサス+5.51%)において,最先端の手法よりも優れていた。
関連論文リスト
- MAVIN: Multi-Action Video Generation with Diffusion Models via Transition Video Infilling [19.004339956475498]
MAVINは、2つの動画をシームレスに接続し、結合的な統合シーケンスを形成するトランジションビデオを生成するように設計されている。
従来の品質基準を補完し,時間的コヒーレンスと滑らかさを評価するための新しい指標CLIP-RS(CLIP Relative Smoothness)を導入する。
馬とトラのシナリオに関する実験結果は、滑らかでコヒーレントなビデオ遷移を生成するMAVINの優れた性能を示す。
論文 参考訳(メタデータ) (2024-05-28T09:46:09Z) - Efficient and Effective Weakly-Supervised Action Segmentation via Action-Transition-Aware Boundary Alignment [33.74853437611066]
弱教師付きアクションセグメンテーションは、長いビデオを複数のアクションセグメンテーションに分割する学習である。
既存の手法の多くは、すべてのフレームと転写文間のシリアルアライメントによるトレーニングのために擬似セグメンテーションを推論する必要がある。
本稿では,雑音境界を効果的かつ効果的にフィルタリングし,遷移を検出する新しい行動遷移対応境界アライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-28T08:39:44Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Unified Fully and Timestamp Supervised Temporal Action Segmentation via
Sequence to Sequence Translation [15.296933526770967]
本稿では,シーケンス to シーケンス (seq2seq) 変換によるビデオアクションセグメンテーションの統一フレームワークを提案する。
提案手法は,標準的な Transformer seq2seq 翻訳モデル上での一連の修正と補助的損失関数を含む。
当社のフレームワークは、フルおよびタイムスタンプ管理設定、パフォーマンス、競合する複数のデータセットの最先端の両方で一貫して動作します。
論文 参考訳(メタデータ) (2022-09-01T17:46:02Z) - Modeling Motion with Multi-Modal Features for Text-Based Video
Segmentation [56.41614987789537]
テキストベースのビデオセグメンテーションは、対象のオブジェクトを記述文に基づいてビデオに分割することを目的としている。
本研究では, 正確なセグメンテーションを実現するために, 外観, 動き, 言語的特徴を融合, 整合させる手法を提案する。
論文 参考訳(メタデータ) (2022-04-06T02:42:33Z) - Transformers in Action:Weakly Supervised Action Segmentation [81.18941007536468]
等価なRNNモデルに対して, 動作アライメント精度を向上させるためにトランスフォーマーを適用する方法を示す。
また、推論時により高速に書き起こしを選択するための補足的な書き起こし埋め込み手法を提案する。
提案手法をベンチマークデータセット全体にわたって評価し,トランスフォーマーの適用性をよりよく理解する。
論文 参考訳(メタデータ) (2022-01-14T21:15:58Z) - An End-to-End Trainable Video Panoptic Segmentation Method
usingTransformers [0.11714813224840924]
本稿では,新しい研究領域であるビデオパノプティカルセグメンテーション問題に取り組むアルゴリズムを提案する。
提案するビデオパノプティクス分割アルゴリズムはトランスフォーマーを用いて,複数のビデオフレームを入力してエンドツーエンドでトレーニングすることができる。
この方法は、KITTI-STEPデータセットで57.81%、MOTChallenge-STEPデータセットで31.8%をアーカイブした。
論文 参考訳(メタデータ) (2021-10-08T10:13:37Z) - Few-Shot Action Recognition with Compromised Metric via Optimal
Transport [31.834843714684343]
少数の画像分類の広い研究にもかかわらず、少数のアクション認識はまだ成熟していません。
これらのアルゴリズムをアクション認識に適用する主な障害の1つは、ビデオの複雑な構造です。
これら2つのソリューションの利点を組み合わせるために、CMOT(Compromised Metric via Optimal Transport)を提案します。
論文 参考訳(メタデータ) (2021-04-08T12:42:05Z) - Video Instance Segmentation with a Propose-Reduce Paradigm [68.59137660342326]
ビデオインスタンスセグメンテーション(VIS)は、ビデオ内の各フレームごとに定義されたクラスのすべてのインスタンスをセグメンテーションし、関連付けることを目的とする。
先行メソッドは通常、フレームまたはクリップのセグメンテーションを最初に取得し、追跡またはマッチングによって不完全な結果をマージします。
新しいパラダイムであるPropose-Reduceを提案し、入力ビデオの完全なシーケンスを1ステップで生成します。
論文 参考訳(メタデータ) (2021-03-25T10:58:36Z) - End-to-End Video Instance Segmentation with Transformers [84.17794705045333]
ビデオインスタンスセグメンテーション(ビデオインスタンスセグメンテーション、英: Video instance segmentation、VIS)は、ビデオに関心のあるオブジェクトインスタンスを同時に分類、セグメンテーション、追跡することを必要とするタスクである。
本稿では,Transformer上に構築された新しいビデオインスタンスセグメンテーションフレームワークVisTRを提案する。
初めて、Transformers上に構築されたよりシンプルで高速なビデオインスタンスセグメンテーションフレームワークをデモし、競争力のある精度を実現した。
論文 参考訳(メタデータ) (2020-11-30T02:03:50Z) - Learning Motion Flows for Semi-supervised Instrument Segmentation from
Robotic Surgical Video [64.44583693846751]
本研究は,スパースアノテーションを用いたロボット手術ビデオから半教師楽器のセグメンテーションについて検討する。
生成されたデータペアを利用することで、我々のフレームワークはトレーニングシーケンスの時間的一貫性を回復し、強化することができます。
その結果,本手法は最先端の半教師あり手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-06T02:39:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。