論文の概要: Match Cutting: Finding Cuts with Smooth Visual Transitions
- arxiv url: http://arxiv.org/abs/2210.05766v1
- Date: Tue, 11 Oct 2022 20:17:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 13:44:49.799295
- Title: Match Cutting: Finding Cuts with Smooth Visual Transitions
- Title(参考訳): match cutting: スムーズなビジュアル遷移でカットを見つける
- Authors: Boris Chen, Amir Ziai, Rebecca Tucker, Yuchen Xie
- Abstract要約: マッチカット(英: match cut)とは、類似のフレーミング、構成、またはアクションを用いて、あるシーンから次のシーンに視聴者を流動的に持ち込むショットの間の遷移である。
そこで本研究では,数百万対のショットペアから始まる高品質なマッチング候補を効率よく見つけるモジュール型フレキシブルシステムを提案する。
- 参考スコア(独自算出の注目度): 1.1633929083694388
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A match cut is a transition between a pair of shots that uses similar
framing, composition, or action to fluidly bring the viewer from one scene to
the next. Match cuts are frequently used in film, television, and advertising.
However, finding shots that work together is a highly manual and time-consuming
process that can take days. We propose a modular and flexible system to
efficiently find high-quality match cut candidates starting from millions of
shot pairs. We annotate and release a dataset of approximately 20k labeled
pairs that we use to evaluate our system, using both classification and metric
learning approaches that leverage a variety of image, video, audio, and
audio-visual feature extractors. In addition, we release code and embeddings
for reproducing our experiments at github.com/netflix/matchcut.
- Abstract(参考訳): マッチカット(英: match cut)は、類似のフレーミング、構成、アクションを用いて、視聴者を1つのシーンから次のシーンへと滑らかに導く一対のショット間の遷移である。
マッチカットは映画、テレビ、広告などで頻繁に使用される。
しかし、一緒に働くショットを見つけることは、非常にマニュアルで時間を要するプロセスであり、数日かかる可能性がある。
我々は,数百万対のショットペアから始まる高品質なマッチング候補を効率よく見つけるモジュール式で柔軟なシステムを提案する。
我々は,画像,映像,音声,視聴覚特徴抽出器を活用した分類とメトリック学習のアプローチを用いて,システム評価に使用する約20kのラベル付きペアのデータセットを注釈化し,公開する。
さらに、github.com/netflix/matchcutで実験を再現するためのコードと埋め込みもリリースしています。
関連論文リスト
- Audio Match Cutting: Finding and Creating Matching Audio Transitions in Movies and Videos [6.631897265943008]
マッチカット」は、類似した構成を持つ一対のショットが、あるものから別のものへ流動的に遷移する、一般的なビデオ編集技法である。
本稿では,ビデオや映画の中で"オーディオマッチカット"を自動的に見つけ,生成する能力について検討する。
論文 参考訳(メタデータ) (2024-08-20T16:46:54Z) - Characterizing Video Question Answering with Sparsified Inputs [55.7455981156755]
我々は、異なる入力間隔のタスクを特徴付け、それを行うためのツールを提供する。
具体的には、Gumbelベースの学習可能な選択モジュールを使用して、最終タスクに最適な入力を適応的に選択する。
実験の結果,5.2%~5.8%のパフォーマンス低下がみられ,ビデオの長さは10%に過ぎなかった。
論文 参考訳(メタデータ) (2023-11-27T21:00:20Z) - Video alignment using unsupervised learning of local and global features [0.0]
フレームのグローバルな特徴と局所的な特徴を利用した非教師なしアライメント手法を提案する。
特に、人物検出、ポーズ推定、VGGネットワークという3つのマシンビジョンツールを用いて、各ビデオフレームに効果的な機能を導入する。
このアプローチの主な利点は、トレーニングを必要とせず、トレーニングサンプルを収集することなく、新しいタイプのアクションに適用できることです。
論文 参考訳(メタデータ) (2023-04-13T22:20:54Z) - AutoTransition: Learning to Recommend Video Transition Effects [20.384463765702417]
自動ビデオ遷移レコメンデーション(VTR)の実施について紹介する。
VTRには生のビデオ撮影とオーディオが連続して提供され、隣接する2つのショットごとにビデオ遷移を推奨する。
本稿では,2つの部分からなる新しいマルチモーダルマッチングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-27T12:00:42Z) - Efficient Video Segmentation Models with Per-frame Inference [117.97423110566963]
推論のオーバーヘッドを導入することなく、時間的一貫性を改善することに注力する。
本稿では,時間的一貫性の喪失やオンライン/オフラインの知識蒸留手法など,ビデオシーケンスから学ぶためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2022-02-24T23:51:36Z) - MovieCuts: A New Dataset and Benchmark for Cut Type Recognition [114.57935905189416]
本稿では,マルチモーダル情報のモデリングを必要とするカット型認識タスクを提案する。
10種類のカットタイプにラベル付けされた170万以上のビデオクリップを含む大規模なデータセット、MovieCutsを構築した。
我々の最良のモデルは45.7%のmAPを達成しており、これはタスクが困難であり、高精度なカット型認識がオープンな研究課題であることを示している。
論文 参考訳(メタデータ) (2021-09-12T17:36:55Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Beyond Short Clips: End-to-End Video-Level Learning with Collaborative
Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。
これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。
提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-02T18:59:09Z) - Semi-Supervised Action Recognition with Temporal Contrastive Learning [50.08957096801457]
2つの異なる速度でラベル付きビデオを用いて2経路の時間的コントラストモデルを学習する。
我々は最先端の半教師付き画像認識手法の映像拡張性能を著しく向上させた。
論文 参考訳(メタデータ) (2021-02-04T17:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。