論文の概要: Audio Match Cutting: Finding and Creating Matching Audio Transitions in Movies and Videos
- arxiv url: http://arxiv.org/abs/2408.10998v1
- Date: Tue, 20 Aug 2024 16:46:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 12:35:03.913298
- Title: Audio Match Cutting: Finding and Creating Matching Audio Transitions in Movies and Videos
- Title(参考訳): 映画や動画のオーディオ・マッチ・カット:マッチング・トランジションの発見と作成
- Authors: Dennis Fedorishin, Lie Lu, Srirangaraj Setlur, Venu Govindaraju,
- Abstract要約: マッチカット」は、類似した構成を持つ一対のショットが、あるものから別のものへ流動的に遷移する、一般的なビデオ編集技法である。
本稿では,ビデオや映画の中で"オーディオマッチカット"を自動的に見つけ,生成する能力について検討する。
- 参考スコア(独自算出の注目度): 6.631897265943008
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A "match cut" is a common video editing technique where a pair of shots that have a similar composition transition fluidly from one to another. Although match cuts are often visual, certain match cuts involve the fluid transition of audio, where sounds from different sources merge into one indistinguishable transition between two shots. In this paper, we explore the ability to automatically find and create "audio match cuts" within videos and movies. We create a self-supervised audio representation for audio match cutting and develop a coarse-to-fine audio match pipeline that recommends matching shots and creates the blended audio. We further annotate a dataset for the proposed audio match cut task and compare the ability of multiple audio representations to find audio match cut candidates. Finally, we evaluate multiple methods to blend two matching audio candidates with the goal of creating a smooth transition. Project page and examples are available at: https://denfed.github.io/audiomatchcut/
- Abstract(参考訳): マッチカット」は、類似した構成を持つ一対のショットが、あるものから別のものへ流動的に遷移する、一般的なビデオ編集技法である。
マッチカットはしばしば視覚的であるが、特定のマッチカットは、異なる音源からの音が2つのショットの間で区別できない1つの遷移に融合する、オーディオの流動的な遷移を伴う。
本稿では,ビデオや映画の中で"オーディオマッチカット"を自動的に見つけ,生成する能力について検討する。
我々は、音声マッチングの自己教師型音声表現を作成し、マッチングショットを推奨する粗大な音声マッチングパイプラインを開発し、ブレンドオーディオを作成する。
さらに、提案した音声マッチングカットタスクのデータセットに注釈を付け、複数の音声表現による音声マッチング候補の検索能力を比較する。
最後に、2つの一致する音声候補をスムーズな遷移を目標にブレンドする複数の手法を評価する。
プロジェクトページとサンプルは以下の通りである。
関連論文リスト
- CATR: Combinatorial-Dependence Audio-Queried Transformer for
Audio-Visual Video Segmentation [43.562848631392384]
音声視覚映像のセグメンテーションは、画像フレーム内の音生成対象のピクセルレベルのマップを生成することを目的としている。
本稿では,それぞれの時間的・空間的次元から音声と映像の特徴を結合した非結合型音声・映像依存性を提案する。
論文 参考訳(メタデータ) (2023-09-18T12:24:02Z) - Large-scale unsupervised audio pre-training for video-to-speech
synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。
本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。
次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文 参考訳(メタデータ) (2023-06-27T13:31:33Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - Epic-Sounds: A Large-scale Dataset of Actions That Sound [64.24297230981168]
Epic-Soundsは、時間範囲とクラスラベルをキャプチャする大規模なオーディオアノテーションデータセットである。
我々は、これらの自由形式の音声記述をクラスにまとめることで、純粋に音声と区別できる行動を特定する。
全体として、Epic-Soundsには78.4kの分類された音声イベントとアクションのセグメントがあり、44のクラスにまたがって配布され、39.2kの非分類セグメントが含まれている。
論文 参考訳(メタデータ) (2023-02-01T18:19:37Z) - Match Cutting: Finding Cuts with Smooth Visual Transitions [1.1633929083694388]
マッチカット(英: match cut)とは、類似のフレーミング、構成、またはアクションを用いて、あるシーンから次のシーンに視聴者を流動的に持ち込むショットの間の遷移である。
そこで本研究では,数百万対のショットペアから始まる高品質なマッチング候補を効率よく見つけるモジュール型フレキシブルシステムを提案する。
論文 参考訳(メタデータ) (2022-10-11T20:17:38Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - Soundify: Matching Sound Effects to Video [4.225919537333002]
本稿では,映像と音声のマッチングを支援するシステムSoundifyについて述べる。
ビデオが与えられたら、Soundifyは一致した音を特定し、ビデオに音を同期させ、パンニングとボリュームを動的に調整して空間オーディオを作成する。
論文 参考訳(メタデータ) (2021-12-17T19:22:01Z) - VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency [111.55430893354769]
ビデオでは、同時の背景音や他の人間のスピーカーにもかかわらず、顔に関連するスピーチを抽出することを目的としています。
本手法は,非ラベル映像から音声-視覚音声分離とクロスモーダル話者埋め込みを共同で学習する。
音声-視覚音声分離と強化のための5つのベンチマークデータセットで最新の結果が得られます。
論文 参考訳(メタデータ) (2021-01-08T18:25:24Z) - Everybody's Talkin': Let Me Talk as You Want [134.65914135774605]
本稿では,写真リアルな映像を合成するために,音声のシーケンスを入力とし,対象の肖像画を編集する手法を提案する。
任意のソースオーディオを任意のビデオ出力に変換することのできる、個人固有のレンダリングネットワークを前提としない。
論文 参考訳(メタデータ) (2020-01-15T09:54:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。