論文の概要: Lyric Video Analysis Using Text Detection and Tracking
- arxiv url: http://arxiv.org/abs/2006.11933v1
- Date: Sun, 21 Jun 2020 22:57:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 12:24:07.054783
- Title: Lyric Video Analysis Using Text Detection and Tracking
- Title(参考訳): テキスト検出と追跡を用いた歌詞ビデオ解析
- Authors: Shota Sakaguchi, Jun Kato, Masataka Goto, and Seiichi Uchida
- Abstract要約: 歌詞ビデオ中の歌詞の認識と追跡を試みる。
歌詞ビデオの主な特徴は、歌詞の単語が音楽と同期してフレームに表示されることである。
歌詞の認識と追跡の難しさは、しばしば装飾され、幾何学的に歪められていることである。
- 参考スコア(独自算出の注目度): 20.69948346053543
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We attempt to recognize and track lyric words in lyric videos. Lyric video is
a music video showing the lyric words of a song. The main characteristic of
lyric videos is that the lyric words are shown at frames synchronously with the
music. The difficulty of recognizing and tracking the lyric words is that (1)
the words are often decorated and geometrically distorted and (2) the words
move arbitrarily and drastically in the video frame. The purpose of this paper
is to analyze the motion of the lyric words in lyric videos, as the first step
of automatic lyric video generation. In order to analyze the motion of lyric
words, we first apply a state-of-the-art scene text detector and recognizer to
each video frame. Then, lyric-frame matching is performed to establish the
optimal correspondence between lyric words and the frames. After fixing the
motion trajectories of individual lyric words from correspondence, we analyze
the trajectories of the lyric words by k-medoids clustering and dynamic time
warping (DTW).
- Abstract(参考訳): 我々は、歌詞の単語を歌詞ビデオで認識し追跡しようとする。
歌詞ビデオ(Lyric video)は、歌の歌詞を見せるミュージックビデオである。
歌詞ビデオの主な特徴は、歌詞の単語が音楽と同期してフレームに表示されることである。
歌詞の認識と追跡の難しさは、(1)語はしばしば装飾され、幾何学的に歪められ、(2)語はビデオフレーム内で任意に劇的に移動する。
本研究の目的は,自動歌詞ビデオ生成の第一段階として,歌詞映像中の歌詞単語の動きを分析することである。
歌詞語の動作を解析するために,まず各ビデオフレームに最先端のシーンテキスト検出器と認識器を適用する。
そして、歌詞・フレームマッチングを行い、歌詞語とフレームの最適な対応を確立する。
対応から個々の歌詞語の動き軌跡を固定した後,k-medoids clustering と dynamic time warping (dtw) により歌詞語の軌跡を解析した。
関連論文リスト
- Video-adverb retrieval with compositional adverb-action embeddings [59.45164042078649]
ビデオの中のアクションを記述する副詞を検索することは、きめ細かいビデオを理解するための重要なステップとなる。
本稿では,ビデオの埋め込みと合成副詞アクションテキストの埋め込みを一致させる,ビデオから副詞検索のためのフレームワークを提案する。
提案手法は,ビデオ・アドバブ検索のための最新の5つのベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-09-26T17:31:02Z) - Automated Conversion of Music Videos into Lyric Videos [34.3729204809349]
我々は、クリエイターが歌詞ビデオを作るのを助けるための一連のデザインガイドラインを提案する。
我々はこれらのガイドラインを、入力された音楽ビデオから歌詞ビデオに変換する完全に自動化されたパイプラインでインスタンス化する。
ユーザスタディによると、パイプラインで生成された歌詞ビデオは、テキストの可読性を維持し、注目の焦点を統一するのに有効である。
論文 参考訳(メタデータ) (2023-08-28T22:32:15Z) - Sudowoodo: a Chinese Lyric Imitation System with Source Lyrics [10.99860269567001]
原文の歌詞に基づいて新しい歌詞を生成することができる中国語の歌詞模倣システムであるtextbftextitSudowoodoを紹介した。
推論過程において,生成した歌詞をフィルタ・ランク付けし,高品質な歌詞を選択するために,後処理モジュールを利用する。
人間の評価結果は,我々のフレームワークがより優れた歌詞の模倣を行うことができることを示している。
論文 参考訳(メタデータ) (2023-08-09T02:12:04Z) - Unsupervised Melody-to-Lyric Generation [91.29447272400826]
本稿では,メロディ・歌詞データを学習することなく高品質な歌詞を生成する手法を提案する。
我々は、メロディと歌詞のセグメンテーションとリズムアライメントを利用して、与えられたメロディをデコード制約にコンパイルする。
我々のモデルは、強いベースラインよりもオントピー的、歌いやすく、知性があり、一貫性のある高品質な歌詞を生成することができる。
論文 参考訳(メタデータ) (2023-05-30T17:20:25Z) - Contrastive Video-Language Learning with Fine-grained Frame Sampling [54.542962813921214]
FineCoは、ビデオフレーム上で操作する微妙なコントラスト対象で、ビデオと言語表現をよりよく学習するアプローチである。
テキストと意味的に等価なフレームを選択することで、ビデオの削除を支援し、クロスモーダル対応を改善する。
論文 参考訳(メタデータ) (2022-10-10T22:48:08Z) - Cross-Modal Graph with Meta Concepts for Video Captioning [101.97397967958722]
ビデオキャプションのためのメタ概念を用いたクロスモーダルグラフ(CMG)を提案する。
ビデオキャプションで有用な意味概念を網羅するために、テキスト記述のための対応する視覚領域を弱く学習する。
我々は、予測された述語を用いて、全体的ビデオレベルおよび局所的フレームレベルのビデオグラフを構築し、ビデオシーケンス構造をモデル化する。
論文 参考訳(メタデータ) (2021-08-14T04:00:42Z) - SongMASS: Automatic Song Writing with Pre-training and Alignment
Constraint [54.012194728496155]
SongMASSは、歌詞からメロディーへの生成とメロディから歌詞への生成の課題を克服するために提案されている。
マスクドシーケンスを利用して、シーケンス(質量)事前トレーニングと注意に基づくアライメントモデリングを行う。
我々は,SongMASSがベースライン法よりもはるかに高品質な歌詞とメロディを生成することを示す。
論文 参考訳(メタデータ) (2020-12-09T16:56:59Z) - On Vocabulary Reliance in Scene Text Recognition [79.21737876442253]
ボキャブラリ内の単語を持つ画像に対して、手法は良好に機能するが、ボキャブラリ外の単語を持つ画像にはあまり一般化しない。
私たちはこの現象を「語彙依存」と呼んでいる。
本研究では,2家族のモデルが協調的に学習できるようにするための,シンプルで効果的な相互学習戦略を提案する。
論文 参考訳(メタデータ) (2020-05-08T11:16:58Z) - Quality of Word Embeddings on Sentiment Analysis Tasks [0.0]
我々は、歌詞感情分析と映画レビューの極性タスクにおいて、事前訓練された単語埋め込みモデルの性能を比較した。
われわれの結果によると、Twitterのツイートは歌詞の感情分析でベスト、Google NewsとCommon Crawlは映画極性分析のトップパフォーマーだ。
論文 参考訳(メタデータ) (2020-03-06T15:03:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。