論文の概要: Efficient Movie Scene Detection using State-Space Transformers
- arxiv url: http://arxiv.org/abs/2212.14427v2
- Date: Wed, 21 Jun 2023 22:44:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-23 17:52:51.918305
- Title: Efficient Movie Scene Detection using State-Space Transformers
- Title(参考訳): 状態空間変換器を用いた効率的な映画シーン検出
- Authors: Md Mohaiminul Islam, Mahmudul Hasan, Kishan Shamsundar Athrey, Tony
Braskich, Gedas Bertasius
- Abstract要約: 本研究は,長期映像の依存関係を効率的にキャプチャし,正確なシーン検出を行う状態空間変換器モデルを提案する。
我々のモデルはTranS4merと呼ばれ、構造化状態空間列(S4)と自己注意層(A)の強みを組み合わせた新しいS4Aビルディングブロックを用いて構築されている。
提案するTranS4merは,MovieNet, BBC, OVSDを含む3つの映画シーン検出データセットにおいて,従来の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 11.372828843493899
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to distinguish between different movie scenes is critical for
understanding the storyline of a movie. However, accurately detecting movie
scenes is often challenging as it requires the ability to reason over very long
movie segments. This is in contrast to most existing video recognition models,
which are typically designed for short-range video analysis. This work proposes
a State-Space Transformer model that can efficiently capture dependencies in
long movie videos for accurate movie scene detection. Our model, dubbed
TranS4mer, is built using a novel S4A building block, which combines the
strengths of structured state-space sequence (S4) and self-attention (A)
layers. Given a sequence of frames divided into movie shots (uninterrupted
periods where the camera position does not change), the S4A block first applies
self-attention to capture short-range intra-shot dependencies. Afterward, the
state-space operation in the S4A block is used to aggregate long-range
inter-shot cues. The final TranS4mer model, which can be trained end-to-end, is
obtained by stacking the S4A blocks one after the other multiple times. Our
proposed TranS4mer outperforms all prior methods in three movie scene detection
datasets, including MovieNet, BBC, and OVSD, while also being $2\times$ faster
and requiring $3\times$ less GPU memory than standard Transformer models. We
will release our code and models.
- Abstract(参考訳): 異なる映画シーンを区別する能力は、映画のストーリーラインを理解する上で重要である。
しかし、映画シーンを正確に検出することは、非常に長いセグメントを推論する能力を必要とするため、しばしば困難である。
これは、通常短距離ビデオ分析用に設計された、既存のほとんどのビデオ認識モデルとは対照的である。
本研究は,長期映像の依存関係を効率的にキャプチャし,正確なシーン検出を行う状態空間変換器モデルを提案する。
我々のモデルはTranS4merと呼ばれ、構造化状態空間列(S4)と自己注意層(A)の強みを組み合わせた新しいS4Aビルディングブロックを用いて構築されている。
フレームのシーケンスがフィルムショット(カメラ位置が変化しない中断期間)に分割されると、S4Aブロックはまず、短距離のショット内依存関係をキャプチャするために自己アテンションを適用する。
その後、S4Aブロック内の状態空間操作を使用して、長距離ショット間キューを集約する。
最終TranS4merモデルは、エンドツーエンドで訓練が可能で、S4Aブロックを次々と積み重ねることで得られる。
提案したTranS4merは、MovieNet、BBC、OVSDを含む3つの映画シーン検出データセットにおいて、以前の方法よりも優れています。
コードとモデルをリリースします。
関連論文リスト
- Self-Calibrating 4D Novel View Synthesis from Monocular Videos Using Gaussian Splatting [14.759265492381509]
本稿では,カメラパラメータの自己校正による高忠実度 4D GS シーン表現の学習手法を提案する。
3次元構造を頑健に表現する2次元点特徴の抽出を含む。
その結果,4次元新規ビュー合成における最先端手法の大幅な改善が示された。
論文 参考訳(メタデータ) (2024-06-03T06:52:35Z) - Holoported Characters: Real-time Free-viewpoint Rendering of Humans from Sparse RGB Cameras [65.54875149514274]
一般のアパレルにおいて,人間俳優の高度にリアルなフリー視点映像をレンダリングするための最初のアプローチを提案する。
提案手法は,動作中のアクターの4つのカメラビューと,各3次元骨格ポーズのみを必要とする。
広い服装の俳優を扱い、さらに細かなダイナミックディテールを再現する。
論文 参考訳(メタデータ) (2023-12-12T16:45:52Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders
Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - Selective Structured State-Spaces for Long-Form Video Understanding [15.993227540449011]
本稿では,軽量マスク生成器を用いて情報化画像トークンを適応的に選択するSelective S4(S5)モデルを提案する。
トランスにおける従来のマスクベースのトークン削減手法とは異なり、S5モデルは高密度自己注意計算を回避している。
我々のアプローチは、従来の最先端のS4モデルを最大9.6%の精度で改善し、メモリフットプリントを23%削減する。
論文 参考訳(メタデータ) (2023-03-25T17:47:12Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z) - Long Movie Clip Classification with State-Space Video Models [14.46525612314649]
ViS4merは、自己アテンションと構造化状態空間シーケンス(S4)の強度を組み合わせた効率的な長距離ビデオモデルである。
本モデルでは,短距離時空間特徴抽出のための標準トランスフォーマーエンコーダと,その後の長距離時空間推論のためのマルチスケール時空間S4デコーダを用いる。
ViS4merは2.63倍高速で、それに対応する純粋な自己保持型モデルよりも8ドル安いメモリを必要とする。
論文 参考訳(メタデータ) (2022-04-04T17:58:02Z) - MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient
Long-Term Video Recognition [74.35009770905968]
既存のモデルに比べて30倍の時間的サポートを持つメモリ拡張型視覚変換器を構築した。
MeMViTは、AVA、EPIC-Kitchens-100アクション分類、アクション予測データセットの最先端結果を取得する。
論文 参考訳(メタデータ) (2022-01-20T18:59:54Z) - Keeping Your Eye on the Ball: Trajectory Attention in Video Transformers [77.52828273633646]
暗黙的に決定された動き経路に沿って情報を集約するビデオトランスフォーマー用の新しいドロップインブロックを提案する。
また,入力サイズに対する計算とメモリの二次的依存に対処する新しい手法を提案する。
我々は、Kineetics、Something V2、Epic-Kitchensデータセットの最先端結果を得る。
論文 参考訳(メタデータ) (2021-06-09T21:16:05Z) - Human Mesh Recovery from Multiple Shots [85.18244937708356]
疑似地上真理3Dヒューマンメッシュを用いた長期シーケンスの3次元再構築とマイニングの改善のためのフレームワークを提案する。
得られたデータは,様々なメッシュ回復モデルのトレーニングに有用であることを示す。
編集メディアの大規模なライブラリーから3Dコンテンツを処理・分析するための扉を開くツールを開発した。
論文 参考訳(メタデータ) (2020-12-17T18:58:02Z) - We don't Need Thousand Proposals$\colon$ Single Shot Actor-Action
Detection in Videos [0.0]
SSA2Dは、ビデオ中のアクター・アクション検出のための、シンプルだが効果的なエンド・ツー・エンドのディープ・ネットワークである。
SSA2Dは、単一ショットでピクセルレベルの共同アクターアクション検出を行う統一ネットワークである。
提案手法は,アクター・アクション・データセット(A2D)とビデオオブジェクト・リレーショナル・データセット(VidOR)で評価する。
論文 参考訳(メタデータ) (2020-11-22T03:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。