論文の概要: Lyric Video Analysis Using Text Detection and Tracking
- arxiv url: http://arxiv.org/abs/2006.11933v1
- Date: Sun, 21 Jun 2020 22:57:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 12:24:07.054783
- Title: Lyric Video Analysis Using Text Detection and Tracking
- Title(参考訳): テキスト検出と追跡を用いた歌詞ビデオ解析
- Authors: Shota Sakaguchi, Jun Kato, Masataka Goto, and Seiichi Uchida
- Abstract要約: 歌詞ビデオ中の歌詞の認識と追跡を試みる。
歌詞ビデオの主な特徴は、歌詞の単語が音楽と同期してフレームに表示されることである。
歌詞の認識と追跡の難しさは、しばしば装飾され、幾何学的に歪められていることである。
- 参考スコア(独自算出の注目度): 20.69948346053543
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We attempt to recognize and track lyric words in lyric videos. Lyric video is
a music video showing the lyric words of a song. The main characteristic of
lyric videos is that the lyric words are shown at frames synchronously with the
music. The difficulty of recognizing and tracking the lyric words is that (1)
the words are often decorated and geometrically distorted and (2) the words
move arbitrarily and drastically in the video frame. The purpose of this paper
is to analyze the motion of the lyric words in lyric videos, as the first step
of automatic lyric video generation. In order to analyze the motion of lyric
words, we first apply a state-of-the-art scene text detector and recognizer to
each video frame. Then, lyric-frame matching is performed to establish the
optimal correspondence between lyric words and the frames. After fixing the
motion trajectories of individual lyric words from correspondence, we analyze
the trajectories of the lyric words by k-medoids clustering and dynamic time
warping (DTW).
- Abstract(参考訳): 我々は、歌詞の単語を歌詞ビデオで認識し追跡しようとする。
歌詞ビデオ(Lyric video)は、歌の歌詞を見せるミュージックビデオである。
歌詞ビデオの主な特徴は、歌詞の単語が音楽と同期してフレームに表示されることである。
歌詞の認識と追跡の難しさは、(1)語はしばしば装飾され、幾何学的に歪められ、(2)語はビデオフレーム内で任意に劇的に移動する。
本研究の目的は,自動歌詞ビデオ生成の第一段階として,歌詞映像中の歌詞単語の動きを分析することである。
歌詞語の動作を解析するために,まず各ビデオフレームに最先端のシーンテキスト検出器と認識器を適用する。
そして、歌詞・フレームマッチングを行い、歌詞語とフレームの最適な対応を確立する。
対応から個々の歌詞語の動き軌跡を固定した後,k-medoids clustering と dynamic time warping (dtw) により歌詞語の軌跡を解析した。
関連論文リスト
- Song Form-aware Full-Song Text-to-Lyrics Generation with Multi-Level Granularity Syllable Count Control [13.702198736153582]
単語,フレーズ,行,段落レベルで多段階の音節制御を可能にする歌詞生成フレームワークを提案する。
提案手法は,入力テキストと歌唱形式に条件付けされた完全な歌詞を生成し,特定の音節制約に適合することを保証する。
論文 参考訳(メタデータ) (2024-11-20T07:57:58Z) - REFFLY: Melody-Constrained Lyrics Editing Model [50.03960548399128]
任意の形態のプレーンテキストドラフトを高品質で本格的な歌詞に編集するための,最初の改訂フレームワークであるREFFLYを紹介する。
提案手法は,生成した歌詞が原文の意味を保ち,旋律と整合し,所望の曲構造に固執することを保証する。
論文 参考訳(メタデータ) (2024-08-30T23:22:34Z) - Lyrics Transcription for Humans: A Readability-Aware Benchmark [1.2499537119440243]
本稿では、包括的な歌詞の書き起こしベンチマークであるJam-ALTを紹介する。
ベンチマークには、JamendoLyricsデータセットの完全なリビジョンと、歌詞固有のニュアンスをキャプチャして評価するための評価指標が含まれている。
このベンチマークを最近の書き起こしシステムに適用し、さらにエラー解析を行い、古典的な音楽データセットと実験的な比較を行った。
論文 参考訳(メタデータ) (2024-07-30T14:20:09Z) - Dynamic Typography: Bringing Text to Life via Video Diffusion Prior [73.72522617586593]
動的タイポグラフィー(Dynamic Typography)と呼ばれる自動テキストアニメーション方式を提案する。
意味的意味を伝えるために文字を変形させ、ユーザプロンプトに基づいて活気ある動きを注入する。
本手法は,ベクトルグラフィックス表現とエンドツーエンド最適化に基づくフレームワークを利用する。
論文 参考訳(メタデータ) (2024-04-17T17:59:55Z) - Video-adverb retrieval with compositional adverb-action embeddings [59.45164042078649]
ビデオの中のアクションを記述する副詞を検索することは、きめ細かいビデオを理解するための重要なステップとなる。
本稿では,ビデオの埋め込みと合成副詞アクションテキストの埋め込みを一致させる,ビデオから副詞検索のためのフレームワークを提案する。
提案手法は,ビデオ・アドバブ検索のための最新の5つのベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-09-26T17:31:02Z) - Automated Conversion of Music Videos into Lyric Videos [34.3729204809349]
我々は、クリエイターが歌詞ビデオを作るのを助けるための一連のデザインガイドラインを提案する。
我々はこれらのガイドラインを、入力された音楽ビデオから歌詞ビデオに変換する完全に自動化されたパイプラインでインスタンス化する。
ユーザスタディによると、パイプラインで生成された歌詞ビデオは、テキストの可読性を維持し、注目の焦点を統一するのに有効である。
論文 参考訳(メタデータ) (2023-08-28T22:32:15Z) - Sudowoodo: a Chinese Lyric Imitation System with Source Lyrics [10.99860269567001]
原文の歌詞に基づいて新しい歌詞を生成することができる中国語の歌詞模倣システムであるtextbftextitSudowoodoを紹介した。
推論過程において,生成した歌詞をフィルタ・ランク付けし,高品質な歌詞を選択するために,後処理モジュールを利用する。
人間の評価結果は,我々のフレームワークがより優れた歌詞の模倣を行うことができることを示している。
論文 参考訳(メタデータ) (2023-08-09T02:12:04Z) - Unsupervised Melody-to-Lyric Generation [91.29447272400826]
本稿では,メロディ・歌詞データを学習することなく高品質な歌詞を生成する手法を提案する。
我々は、メロディと歌詞のセグメンテーションとリズムアライメントを利用して、与えられたメロディをデコード制約にコンパイルする。
我々のモデルは、強いベースラインよりもオントピー的、歌いやすく、知性があり、一貫性のある高品質な歌詞を生成することができる。
論文 参考訳(メタデータ) (2023-05-30T17:20:25Z) - Contrastive Video-Language Learning with Fine-grained Frame Sampling [54.542962813921214]
FineCoは、ビデオフレーム上で操作する微妙なコントラスト対象で、ビデオと言語表現をよりよく学習するアプローチである。
テキストと意味的に等価なフレームを選択することで、ビデオの削除を支援し、クロスモーダル対応を改善する。
論文 参考訳(メタデータ) (2022-10-10T22:48:08Z) - On Vocabulary Reliance in Scene Text Recognition [79.21737876442253]
ボキャブラリ内の単語を持つ画像に対して、手法は良好に機能するが、ボキャブラリ外の単語を持つ画像にはあまり一般化しない。
私たちはこの現象を「語彙依存」と呼んでいる。
本研究では,2家族のモデルが協調的に学習できるようにするための,シンプルで効果的な相互学習戦略を提案する。
論文 参考訳(メタデータ) (2020-05-08T11:16:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。