論文の概要: From Speech to Subtitles: Evaluating ASR Models in Subtitling Italian Television Programs
- arxiv url: http://arxiv.org/abs/2512.19161v1
- Date: Mon, 22 Dec 2025 08:57:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.681955
- Title: From Speech to Subtitles: Evaluating ASR Models in Subtitling Italian Television Programs
- Title(参考訳): 音声から字幕へ:イタリアのテレビ番組におけるASRモデルの評価
- Authors: Alessandro Lucca, Francesco Pierri,
- Abstract要約: 本稿では,イタリアのメディア企業を対象としたプロフェッショナル・サブティットリング・システムの開発事例について述べる。
イタリアのテレビ番組の50時間データセットを用いて、4つの最先端のASRモデルを評価した。
この研究は、彼らの強みと限界を強調し、プロの人間字幕師の業績に対してパフォーマンスをベンチマークした。
- 参考スコア(独自算出の注目度): 47.360833183092154
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Subtitles are essential for video accessibility and audience engagement. Modern Automatic Speech Recognition (ASR) systems, built upon Encoder-Decoder neural network architectures and trained on massive amounts of data, have progressively reduced transcription errors on standard benchmark datasets. However, their performance in real-world production environments, particularly for non-English content like long-form Italian videos, remains largely unexplored. This paper presents a case study on developing a professional subtitling system for an Italian media company. To inform our system design, we evaluated four state-of-the-art ASR models (Whisper Large v2, AssemblyAI Universal, Parakeet TDT v3 0.6b, and WhisperX) on a 50-hour dataset of Italian television programs. The study highlights their strengths and limitations, benchmarking their performance against the work of professional human subtitlers. The findings indicate that, while current models cannot meet the media industry's accuracy needs for full autonomy, they can serve as highly effective tools for enhancing human productivity. We conclude that a human-in-the-loop (HITL) approach is crucial and present the production-grade, cloud-based infrastructure we designed to support this workflow.
- Abstract(参考訳): 字幕はビデオのアクセシビリティとオーディエンスエンゲージメントに不可欠である。
エンコーダ・デコーダニューラルネットワークアーキテクチャに基づいて構築され、大量のデータに基づいて訓練された現代の自動音声認識(ASR)システムは、標準ベンチマークデータセットの書き起こしエラーを徐々に削減している。
しかし、実際のプロダクション環境でのパフォーマンス、特にロングフォームのイタリアンビデオのような英語以外のコンテンツについては、明らかにされていない。
本稿では,イタリアのメディア企業を対象としたプロフェッショナル・サブティットリング・システムの開発事例について述べる。
システム設計を報告するため,50時間のイタリアのテレビ番組のデータセットを用いて,最先端のASRモデル(Whisper Large v2, AssemblyAI Universal, Parakeet TDT v3 0.6b, WhisperX)を4種類評価した。
この研究は、彼らの強みと限界を強調し、プロの人間字幕師の業績に対してパフォーマンスをベンチマークした。
この結果は、現在のモデルはメディア産業の完全な自律性に必要な精度を満たすことはできないが、人間の生産性を高めるための非常に効果的なツールとして機能することを示している。
我々は、Human-in-the-loop(HITL)アプローチが不可欠であると結論付け、このワークフローをサポートするように設計されたプロダクショングレードのクラウドベースのインフラストラクチャを提示する。
関連論文リスト
- TimeLens: Rethinking Video Temporal Grounding with Multimodal LLMs [81.78017865436816]
我々は,映像の時間的接地能力の強いMLLMを体系的に構築するTimeLensを提案する。
まず,既存のVTGベンチマークにおける重要な品質問題を明らかにし,TimeLens-Benchを導入する。
また、自動再アノテーションパイプラインを通じてノイズの多いトレーニングデータに対処し、大規模で高品質なトレーニングデータセットであるTimeLens-100Kを出力します。
論文 参考訳(メタデータ) (2025-12-16T18:59:58Z) - Rethinking Visual Intelligence: Insights from Video Pretraining [75.32388528274224]
大規模言語モデル(LLM)は、大規模事前学習によってシステムが新しい問題に迅速に適応できることを実証している。
本稿では,映像拡散モデル(VDM)をギャップを埋めるための有望な方向として検討する。
論文 参考訳(メタデータ) (2025-10-28T14:12:11Z) - Leveraging LLM and Self-Supervised Training Models for Speech Recognition in Chinese Dialects: A Comparative Analysis [4.774607166378613]
自己教師付き事前トレーニングと大規模言語モデル(LLM)を組み合わせることで、低リソースシナリオにおけるASRのパフォーマンスを効果的に向上させることができる。
我々は、ラベル付き方言とアクセント付き音声データの30,000時間でData2vec2モデルを事前訓練し、教師付きデータセット上で4万時間アライメントトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-27T12:50:55Z) - ETTA: Elucidating the Design Space of Text-to-Audio Models [33.831803213869605]
対象ベンチマークに対するデータ,モデルアーキテクチャ,目標関数のトレーニング,およびサンプリング戦略の効果について検討する。
Eucidated Text-To-Audio (ETTA) と呼ばれる最良のモデルを提案する。
ETTAは、公開データでトレーニングされたベースラインよりも改善され、プロプライエタリデータでトレーニングされたモデルと競合する。
論文 参考訳(メタデータ) (2024-12-26T21:13:12Z) - Prompting Encoder Models for Zero-Shot Classification: A Cross-Domain Study in Italian [75.94354349994576]
本稿では,より小型のドメイン固有エンコーダ LM と,特殊なコンテキストにおける性能向上手法の併用の可能性について検討する。
本研究は, イタリアの官僚的・法的言語に焦点をあて, 汎用モデルと事前学習型エンコーダのみのモデルの両方を実験する。
その結果, 事前学習したモデルでは, 一般知識の頑健性が低下する可能性があるが, ドメイン固有のタスクに対して, ゼロショット設定においても, より優れた適応性を示すことがわかった。
論文 参考訳(メタデータ) (2024-07-30T08:50:16Z) - Multi-Sentence Grounding for Long-term Instructional Video [63.27905419718045]
大規模インストラクショナルデータセットを記述するための,自動でスケーラブルなパイプラインを確立することを目的としている。
複数の記述ステップを監督する高品質なビデオテキストデータセット、HowToStepを構築した。
論文 参考訳(メタデータ) (2023-12-21T17:28:09Z) - Weakly Supervised Construction of ASR Systems with Massive Video Data [18.5050375783871]
本稿では,大容量ビデオデータを用いたASRシステム構築のための弱教師付きフレームワークを提案する。
光文字認識(OCR)に基づく映像から高音質音声をテキストに整合して抽出する効果的な手法を提案する。
本フレームワークは,マンダリン音声認識のための6つの公開データセットに対して,最先端の結果を容易に生成することができる。
論文 参考訳(メタデータ) (2020-08-04T03:11:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。