論文の概要: ANIM-400K: A Large-Scale Dataset for Automated End-To-End Dubbing of
Video
- arxiv url: http://arxiv.org/abs/2401.05314v1
- Date: Wed, 10 Jan 2024 18:32:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-11 13:55:52.699105
- Title: ANIM-400K: A Large-Scale Dataset for Automated End-To-End Dubbing of
Video
- Title(参考訳): ANIM-400K:ビデオのエンドツーエンドダビングを自動化するための大規模データセット
- Authors: Kevin Cai, Chonghua Liu, David M. Chan
- Abstract要約: Anim-400Kは、日本語と英語で425Kを超えるアニメーションビデオセグメントのデータセットである。
自動ダビング、同時翻訳、ガイド付きビデオ要約、ジャンル/スタイル分類など、様々なビデオ関連タスクをサポートする。
- 参考スコア(独自算出の注目度): 3.2995359570845912
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Internet's wealth of content, with up to 60% published in English,
starkly contrasts the global population, where only 18.8% are English speakers,
and just 5.1% consider it their native language, leading to disparities in
online information access. Unfortunately, automated processes for dubbing of
video - replacing the audio track of a video with a translated alternative -
remains a complex and challenging task due to pipelines, necessitating precise
timing, facial movement synchronization, and prosody matching. While end-to-end
dubbing offers a solution, data scarcity continues to impede the progress of
both end-to-end and pipeline-based methods. In this work, we introduce
Anim-400K, a comprehensive dataset of over 425K aligned animated video segments
in Japanese and English supporting various video-related tasks, including
automated dubbing, simultaneous translation, guided video summarization, and
genre/theme/style classification. Our dataset is made publicly available for
research purposes at https://github.com/davidmchan/Anim400K.
- Abstract(参考訳): インターネットのコンテンツの豊富さは、最大60%が英語で出版されており、18.8%が英語話者であり、5.1%が母国語であると考え、オンライン情報アクセスの格差に繋がる世界人口とは全く対照的である。
残念ながら、ビデオのダビングのための自動化プロセス - ビデオのオーディオトラックを変換されたオルタナティブに置き換えることは、パイプラインによる複雑で困難なタスクであり、正確なタイミング、顔の動きの同期、韻律マッチングを必要とする。
エンドツーエンドのドビングはソリューションを提供するが、データ不足はエンドツーエンドとパイプラインベースの両方の方法の進歩を妨げ続けている。
本研究では,自動ダビング,同時翻訳,ガイド付きビデオ要約,ジャンル/テーマ/スタイル分類など,さまざまなビデオ関連タスクをサポートする,日本語と英語の425K以上のアニメーションビデオセグメントからなる包括的データセットであるAnim-400Kを紹介する。
データセットはhttps://github.com/davidmchan/Anim400K.comで公開されています。
関連論文リスト
- MultiVENT 2.0: A Massive Multilingual Benchmark for Event-Centric Video Retrieval [57.891157692501345]
$textbfMultiVENT 2.0$は、大規模かつ多言語なイベント中心のビデオ検索ベンチマークである。
218,000以上のニュースビデオと、特定の世界イベントを対象とした3,906のクエリが提供されている。
予備的な結果は、最先端のビジョン言語モデルは、この課題にかなり苦労していることを示している。
論文 参考訳(メタデータ) (2024-10-15T13:56:34Z) - Multilingual Synopses of Movie Narratives: A Dataset for Vision-Language Story Understanding [19.544839928488972]
我々はM-SYMON(Multilingual Synopses of Movie Narratives)という大規模多言語ビデオストーリーデータセットを構築した。
M-SYMONには、7つの言語からの13,166本の映画要約ビデオと、101.5時間のビデオの詳細なビデオテキスト対応のマニュアルアノテーションが含まれている。
SyMoNからの注釈付きデータのトレーニングは、Clip AccuracyとSentence IoUのスコアでそれぞれ15.7と16.2でSOTA法を上回ります。
論文 参考訳(メタデータ) (2024-06-18T22:44:50Z) - A Recipe for Scaling up Text-to-Video Generation with Text-free Videos [72.59262815400928]
拡散ベースのテキスト・ツー・ビデオ世代は、過去1年で目覚ましい進歩をみせたが、それでもテキスト・ツー・画像世代には及ばない。
我々はTF-T2Vと呼ばれる新しいテキスト・ビデオ生成フレームワークを考案した。
論文 参考訳(メタデータ) (2023-12-25T16:37:39Z) - SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。
我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。
FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文 参考訳(メタデータ) (2023-08-22T17:44:18Z) - Technology Pipeline for Large Scale Cross-Lingual Dubbing of Lecture
Videos into Multiple Indian Languages [5.17905382659474]
講義ビデオの言語間ダビングには、オリジナルの音声の書き起こし、修正と不一致の除去が必要である。
本稿では,インド語の講義映像を半自動で再生する際の課題について述べる。
論文 参考訳(メタデータ) (2022-11-01T07:06:29Z) - Video Question Answering with Iterative Video-Text Co-Tokenization [77.66445727743508]
本稿では,ビデオ質問応答のための新しいマルチストリームビデオエンコーダを提案する。
実験により,MSRVTT-QA,MSVD-QA,IVQAなどの複数のデータセットでモデルを評価する。
本稿では,必要なGFLOPを150-360から67に削減し,高効率なビデオ質問応答モデルを構築した。
論文 参考訳(メタデータ) (2022-08-01T15:35:38Z) - Prosody-Aware Neural Machine Translation for Dubbing [9.49303003480503]
本稿では, ダビングに適した翻訳文を生成することを目的とした韻律対応機械翻訳の課題について紹介する。
音声文のダビングには、タイミング情報を保持するために、ソースの韻律構造だけでなく、コンテンツも対象言語に転送する必要がある。
本稿では,ニューラルマシン翻訳に韻律情報を統合する暗黙的かつ明示的なモデリング手法を提案する。
論文 参考訳(メタデータ) (2021-12-16T01:11:08Z) - MAD: A Scalable Dataset for Language Grounding in Videos from Movie
Audio Descriptions [109.84031235538002]
我々は、既存のビデオデータセットをテキストアノテーションで拡張するパラダイムから外れた、新しいベンチマークであるMAD(Movie Audio Descriptions)を提示する。
MADには1200時間以上のビデオに接地された384,000以上の自然言語文が含まれており、現在診断されているビデオ言語接地データセットのバイアスが大幅に減少している。
論文 参考訳(メタデータ) (2021-12-01T11:47:09Z) - Machine Translation Verbosity Control for Automatic Dubbing [11.85772502779967]
本稿では,機械翻訳出力の冗長性を制御する新しい手法を提案する。
実験では、公開データセットを使用して、英語のスピーチをフランス語、イタリア語、ドイツ語、スペイン語にダブします。
MT冗長性制御がビデオクリップの最終的な品質に与える影響を広範囲にわたる主観的テストで評価した。
論文 参考訳(メタデータ) (2021-10-08T01:19:10Z) - Large-scale multilingual audio visual dubbing [31.43873011591989]
本稿では,大規模オーディオビジュアル翻訳とダビングのためのシステムについて述べる。
ソース言語の音声内容はテキストに書き起こされ、翻訳され、ターゲット言語音声に自動的に合成される。
視覚内容は、翻訳された音声と一致するように、話者の唇の動きを合成することにより変換される。
論文 参考訳(メタデータ) (2020-11-06T18:58:15Z) - VIOLIN: A Large-Scale Dataset for Video-and-Language Inference [103.7457132841367]
ビデオとテキストのマルチモーダル理解のための新しいタスク, Video-and-Language Inferenceを導入する。
サブタイトルを前提としたビデオクリップと、そのビデオコンテンツに基づいて自然言語仮説とをペアリングすると、モデルは、その仮説が所定のビデオクリップに関連付けられているか、矛盾しているかを推測する必要がある。
このタスクには、Violin(VIdeO-and-Language Inference)という名の新しい大規模データセットが導入された。
論文 参考訳(メタデータ) (2020-03-25T20:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。