論文の概要: Empowering the Deaf and Hard of Hearing Community: Enhancing Video Captions Using Large Language Models
- arxiv url: http://arxiv.org/abs/2412.00342v1
- Date: Sat, 30 Nov 2024 03:52:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:46:42.458701
- Title: Empowering the Deaf and Hard of Hearing Community: Enhancing Video Captions Using Large Language Models
- Title(参考訳): 聴覚コミュニティの難聴と難聴のエンパワーメント:大規模言語モデルを用いたビデオキャプションの強化
- Authors: Nadeen Fathallah, Monika Bhole, Steffen Staab,
- Abstract要約: 難聴と難聴(DHH)コミュニティは、正確で信頼性の高いキャプションを提供する上で、自動音声認識(ASR)システムが不十分であるために、ビデオコンテンツにアクセスする際の課題に直面していることが多い。
本稿では,大言語モデル(LLM)の統合を探求し,ASRシステムによって生成されたキャプションの精度と文脈認識性を向上する研究を行う。
以上の結果から,LLM強調字幕の精度は,ChatGPT-3.5による単語誤り率(WER)が顕著に低いことが示唆された。
- 参考スコア(独自算出の注目度): 10.658387847149195
- License:
- Abstract: In today's digital age, video content is prevalent, serving as a primary source of information, education, and entertainment. However, the Deaf and Hard of Hearing (DHH) community often faces significant challenges in accessing video content due to the inadequacy of automatic speech recognition (ASR) systems in providing accurate and reliable captions. This paper addresses the urgent need to improve video caption quality by leveraging Large Language Models (LLMs). We present a comprehensive study that explores the integration of LLMs to enhance the accuracy and context-awareness of captions generated by ASR systems. Our methodology involves a novel pipeline that corrects ASR-generated captions using advanced LLMs. It explicitly focuses on models like GPT-3.5 and Llama2-13B due to their robust performance in language comprehension and generation tasks. We introduce a dataset representative of real-world challenges the DHH community faces to evaluate our proposed pipeline. Our results indicate that LLM-enhanced captions significantly improve accuracy, as evidenced by a notably lower Word Error Rate (WER) achieved by ChatGPT-3.5 (WER: 9.75%) compared to the original ASR captions (WER: 23.07%), ChatGPT-3.5 shows an approximate 57.72% improvement in WER compared to the original ASR captions.
- Abstract(参考訳): 今日のデジタル時代には、ビデオコンテンツが普及し、情報、教育、エンターテイメントの主要な情報源となっている。
しかし、DHH(Deaf and Hard of Hearing)コミュニティは、正確で信頼性の高いキャプションを提供する上で、自動音声認識(ASR)システムが不十分であるため、ビデオコンテンツにアクセスする上で大きな課題に直面していることが多い。
本稿では,Large Language Models (LLMs) を活用した映像キャプションの品質向上の必要性について述べる。
本稿では,ALRシステムによって生成されたキャプションの精度と文脈認識性を高めるため,LLMの統合を総合的に検討する。
提案手法は, ASR 生成キャプションを高度 LLM を用いて補正する新しいパイプラインを含む。
GPT-3.5やLlama2-13Bのようなモデルに特化している。
提案したパイプラインを評価するために,DHHコミュニティが直面している現実的な課題のデータセットについて紹介する。
以上の結果から,従来のASRキャプション (WER: 23.07%) と比較して, ChatGPT-3.5 (WER: 9.75%) の単語誤り率(WER: 9.75%) が顕著に低いことが示唆され, 従来のASRキャプション (WER: 23.07%) と比較して, ChatGPT-3.5 の精度は57.72%向上した。
関連論文リスト
- Large Language Model Based Generative Error Correction: A Challenge and Baselines for Speech Recognition, Speaker Tagging, and Emotion Recognition [110.8431434620642]
生成音声の書き起こし誤り訂正(GenSEC)の課題について紹介する。
この課題は、(i)ASR後の転写補正、(ii)話者タグ付け、(iii)感情認識という、3つのASR後の言語モデリングタスクを含む。
本稿では,ベースライン評価から得られた知見と,今後の評価設計における教訓について論じる。
論文 参考訳(メタデータ) (2024-09-15T16:32:49Z) - LA-RAG:Enhancing LLM-based ASR Accuracy with Retrieval-Augmented Generation [15.520180125182756]
近年,大規模言語モデル(LLM)への音声情報統合の進歩により,音声認識(ASR)の精度が大幅に向上した。
既存の手法はアクセントのような様々な音響条件下での音声エンコーダの能力に制約されることが多い。
LA-RAGは、LLMベースのASRのための新しいRAGパラダイムである。
論文 参考訳(メタデータ) (2024-09-13T07:28:47Z) - Measuring the Accuracy of Automatic Speech Recognition Solutions [4.99320937849508]
音声認識(ASR)は現在、多くの一般的なアプリケーションの一部となっている。
高等教育講座の講義記録を用いて,11種類の一般的なASRサービスの性能を測定した。
以上の結果から,ベンダー間および個々のオーディオサンプルに対して,精度が広範囲に及んでいることが示唆された。
また,ライブイベントに使用されるASRのストリーミング品質も著しく低下した。
論文 参考訳(メタデータ) (2024-08-29T06:38:55Z) - Performance Improvement of Language-Queried Audio Source Separation Based on Caption Augmentation From Large Language Models for DCASE Challenge 2024 Task 9 [4.328586290529485]
本稿では,言語クエリ音声ソース分離(LASS)タスクに適用した,プロンプトエンジニアリングに基づくテキスト拡張手法を提案する。
学習データセットの各文に対応する複数の字幕を生成するために,大規模言語モデル (LLM) を用いた。
論文 参考訳(メタデータ) (2024-06-17T06:19:14Z) - Enhancing the Stability of LLM-based Speech Generation Systems through
Self-Supervised Representations [14.437646262239612]
自己教師型音声変換(VC)アーキテクチャは、話者IDや記録条件などの定常的な特徴とは独立して、コンテンツなどのトランジッショナルな特徴を符号化し、話者不整合表現を作成するために使用することができる。
テキスト・トゥ・スポーチ(TTS)のためのLLMの訓練に話者区別符号を使用すると、LLMは人間と同様にテキストからのみ音声の内容とスタイルを生成することができ、一方、話者識別はVCモデルのデコーダによって提供される。
結果から,LLMの自己教師表現による訓練が4.7ppの改善をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2024-02-05T15:08:19Z) - Towards ASR Robust Spoken Language Understanding Through In-Context
Learning With Word Confusion Networks [68.79880423713597]
本稿では,トップ仮説のみに頼るのではなく,ASRシステムの格子出力を利用する手法を提案する。
音声質問応答と意図分類を網羅した文脈内学習実験により,LLMの音声書き起こしに対する弾力性について明らかにした。
論文 参考訳(メタデータ) (2024-01-05T17:58:10Z) - Video-Teller: Enhancing Cross-Modal Generation with Fusion and
Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。
Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。
大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文 参考訳(メタデータ) (2023-10-08T03:35:27Z) - HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [72.69268311756082]
本稿では,大言語モデル(LLM)の能力を活用して,大規模ビデオに対応する高品質な映像記述を実現することを提案する。
本稿では,より長い字幕テキストを考慮に入れたプロンプト手法を提案する。
我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
論文 参考訳(メタデータ) (2023-10-07T19:32:55Z) - Zero-Shot Audio Captioning via Audibility Guidance [57.70351255180495]
音声のキャプションのためのデシラタを3つ提案する -- (i) 生成したテキストの流布, (ii) 生成したテキストを入力オーディオに忠実さ, (iii) 可聴性。
本手法はゼロショット法であり,キャプションの実行を学習していない。
本稿では,AudioCapデータセットを用いて,聴力指導がベースラインと比較して性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:45:58Z) - LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition [148.43282526983637]
データコストの低い言語のためのTLSおよびASRシステムであるLSpeechを開発した。
実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。
現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
論文 参考訳(メタデータ) (2020-08-09T08:16:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。