論文の概要: V-SAT: Video Subtitle Annotation Tool
- arxiv url: http://arxiv.org/abs/2510.24180v1
- Date: Tue, 28 Oct 2025 08:34:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.907475
- Title: V-SAT: Video Subtitle Annotation Tool
- Title(参考訳): V-SAT:ビデオ字幕アノテーションツール
- Authors: Arpita Kundu, Joyita Chakraborty, Anindita Desarkar, Aritra Sen, Srushti Anil Patil, Vishwanathan Raman,
- Abstract要約: V-SAT(Video Subtitle Tool)は、様々な字幕品質問題を自動的に検出し、修正する統合フレームワークである。
大規模言語モデル(LLM)、視覚言語モデル(VLM)、画像処理、自動音声認識(ASR)を組み合わせることで、V-SATは音声とビデオの両方からコンテキストキューを活用する。
- 参考スコア(独自算出の注目度): 0.07388859384645263
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The surge of audiovisual content on streaming platforms and social media has heightened the demand for accurate and accessible subtitles. However, existing subtitle generation methods primarily speech-based transcription or OCR-based extraction suffer from several shortcomings, including poor synchronization, incorrect or harmful text, inconsistent formatting, inappropriate reading speeds, and the inability to adapt to dynamic audio-visual contexts. Current approaches often address isolated issues, leaving post-editing as a labor-intensive and time-consuming process. In this paper, we introduce V-SAT (Video Subtitle Annotation Tool), a unified framework that automatically detects and corrects a wide range of subtitle quality issues. By combining Large Language Models(LLMs), Vision-Language Models (VLMs), Image Processing, and Automatic Speech Recognition (ASR), V-SAT leverages contextual cues from both audio and video. Subtitle quality improved, with the SUBER score reduced from 9.6 to 3.54 after resolving all language mode issues and F1-scores of ~0.80 for image mode issues. Human-in-the-loop validation ensures high-quality results, providing the first comprehensive solution for robust subtitle annotation.
- Abstract(参考訳): ストリーミングプラットフォームやソーシャルメディアでのオーディオヴィジュアルコンテンツの急増により、正確な字幕とアクセス可能な字幕の需要が高まった。
しかし、既存の字幕生成手法は主に音声ベースの書き起こしやOCRベースの抽出は、同期性の悪い、不正確または有害なテキスト、一貫性のないフォーマッティング、不適切な読み出し速度、動的オーディオ視覚コンテキストに適応できないといったいくつかの欠点に悩まされている。
現在のアプローチは、しばしば孤立した問題に対処し、後編集を労働集約的で時間を要するプロセスとして残します。
本稿では,V-SAT(Video Subtitle Annotation Tool)を導入し,様々な字幕品質問題を自動的に検出し,修正する統合フレームワークを提案する。
大規模言語モデル(LLM)、視覚言語モデル(VLM)、画像処理、自動音声認識(ASR)を組み合わせることで、V-SATは音声とビデオの両方からコンテキストキューを活用する。
字幕の質は向上し、SUBERのスコアは全ての言語モードの問題を解決した後9.6から3.54に低下し、画像モードのF1スコアは0.80となった。
Human-in-the-loop Validationは高品質な結果を保証し、ロバストな字幕アノテーションに対する最初の包括的なソリューションを提供する。
関連論文リスト
- The Devil is in the Distributions: Explicit Modeling of Scene Content is Key in Zero-Shot Video Captioning [89.64905703368255]
ゼロショットビデオキャプションのためのプログレッシブな多粒性テキストプロンプト戦略を提案する。
提案手法は,名詞句,名詞句のシーングラフ,全文を含む3つの異なる記憶バンクを構築する。
論文 参考訳(メタデータ) (2025-03-31T03:00:19Z) - Expertized Caption Auto-Enhancement for Video-Text Retrieval [10.250004732070494]
本稿では,自動字幕強調手法を提案する。
本手法は完全にデータ駆動型であり,データ収集や計算処理の負荷を軽減できるだけでなく,自己適応性も向上する。
MSR-VTTでは68.5%,MSVDでは68.1%,DiDeMoでは62.0%,Top-1リコール精度は68.5%であった。
論文 参考訳(メタデータ) (2025-02-05T04:51:46Z) - Classifier-Guided Captioning Across Modalities [69.75111271002137]
本稿では,音声キャプションにおける可聴性の獲得など,代替設定のセマンティクスにキャプションネットワークを適用する手法を提案する。
本フレームワークは, (i) 言語モデル(LM)を組み込んだ冷凍キャプションシステムと, (ii) キャプションシステムを案内するテキスト分類器の2つの主要コンポーネントから構成される。
特に、既存のゼロショット音声キャプションシステムと組み合わせることで、その品質を改善し、ゼロショット音声キャプションにおける最先端の性能を設定する。
論文 参考訳(メタデータ) (2025-01-03T18:09:26Z) - HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [72.69268311756082]
本稿では,大言語モデル(LLM)の能力を活用して,大規模ビデオに対応する高品質な映像記述を実現することを提案する。
本稿では,より長い字幕テキストを考慮に入れたプロンプト手法を提案する。
我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
論文 参考訳(メタデータ) (2023-10-07T19:32:55Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - Direct Speech Translation for Automatic Subtitling [17.095483965591267]
対象言語のサブタイトルとタイムスタンプを1つのモデルで生成する,自動サブタイピングのための最初の直接STモデルを提案する。
7つの言語対の実験により、我々のアプローチは、同じデータ条件下でカスケードシステムより優れていることが示された。
論文 参考訳(メタデータ) (2022-09-27T06:47:42Z) - Aligning Subtitles in Sign Language Videos [80.20961722170655]
17.7時間に及ぶビデオの字幕15k以上の注釈付きアライメントを手作業でトレーニングした。
我々は,この2つの信号を符号化するために,BERT字幕埋め込みとCNNビデオ表現を用いた。
本モデルでは,ビデオフレームごとのフレームレベルの予測,すなわちクェリされたサブタイトルに属するか否かを出力する。
論文 参考訳(メタデータ) (2021-05-06T17:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。