論文の概要: Transcribing Educational Videos Using Whisper: A preliminary study on
using AI for transcribing educational videos
- arxiv url: http://arxiv.org/abs/2307.03200v1
- Date: Tue, 4 Jul 2023 09:26:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-16 04:14:16.993751
- Title: Transcribing Educational Videos Using Whisper: A preliminary study on
using AI for transcribing educational videos
- Title(参考訳): Whisperを用いた教育用ビデオの翻訳:AIを用いた教育用ビデオの翻訳に関する予備的研究
- Authors: Ashwin Rao
- Abstract要約: 25の教育ビデオに対して,whisperが生成したテキストの定量化を行う。
本稿では,ASRを利用した教育ビデオの翻訳におけるオープンな研究方法について述べる。
- 参考スコア(独自算出の注目度): 0.2538209532048866
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Videos are increasingly being used for e-learning, and transcripts are vital
to enhance the learning experience. The costs and delays of generating
transcripts can be alleviated by automatic speech recognition (ASR) systems. In
this article, we quantify the transcripts generated by whisper for 25
educational videos and identify some open avenues of research when leveraging
ASR for transcribing educational videos.
- Abstract(参考訳): ビデオはますますeラーニングに使われており、文字起こしは学習体験を高めるために不可欠である。
書き起こし生成のコストと遅延は、自動音声認識(ASR)システムによって軽減することができる。
本稿では,25の教育ビデオに対してwhisperが生成した原稿を定量化し,asrを用いて教育ビデオの書き起こしを行う際の研究の道筋を明らかにした。
関連論文リスト
- SlideAVSR: A Dataset of Paper Explanation Videos for Audio-Visual Speech Recognition [20.476882754923047]
音声視覚音声認識(AVSR)は自動音声認識(ASR)のマルチモーダル拡張である
本稿では,学術論文説明ビデオを用いたAVSRデータセットであるSlideAVSRを構築する。
論文 参考訳(メタデータ) (2024-01-18T07:19:10Z) - HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [72.69268311756082]
本稿では,大言語モデル(LLM)の能力を活用して,大規模ビデオに対応する高品質な映像記述を実現することを提案する。
本稿では,より長い字幕テキストを考慮に入れたプロンプト手法を提案する。
我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
論文 参考訳(メタデータ) (2023-10-07T19:32:55Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - Video-Guided Curriculum Learning for Spoken Video Grounding [65.49979202728167]
音声言語記述から所望のビデオ断片をローカライズすることを目的とした,新たなタスクである音声ビデオグラウンドティング(SVG)を導入する。
識別音素の修正と雑音の多い音声から映像関連情報を抽出するために,新しいビデオ指導カリキュラム学習(VGCL)を開発した。
さらに,ActivityNetをベースとした,最初の大規模音声グラウンドデータセットを収集する。
論文 参考訳(メタデータ) (2022-09-01T07:47:01Z) - Punctuation Restoration [69.97278287534157]
この研究は、ライブストリーミングビデオの書き起こしで句読点を復元する、BehancePRと呼ばれる新しい人間注記コーパスを提示する。
BehancePRに関する我々の実験は、この領域における句読点復元の課題を実証している。
論文 参考訳(メタデータ) (2022-02-19T23:12:57Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - Weakly Supervised Construction of ASR Systems with Massive Video Data [18.5050375783871]
本稿では,大容量ビデオデータを用いたASRシステム構築のための弱教師付きフレームワークを提案する。
光文字認識(OCR)に基づく映像から高音質音声をテキストに整合して抽出する効果的な手法を提案する。
本フレームワークは,マンダリン音声認識のための6つの公開データセットに対して,最先端の結果を容易に生成することができる。
論文 参考訳(メタデータ) (2020-08-04T03:11:32Z) - AVLnet: Learning Audio-Visual Language Representations from
Instructional Videos [69.56522471911396]
本稿では,生のビデオ入力から直接共有映像埋め込み空間を学習する自己教師型ネットワークであるAVLnetを紹介する。
AVLnet を HowTo100M でトレーニングし,画像検索およびビデオ検索タスクの評価を行う。
私たちのコード、データ、トレーニングされたモデルは、avlnet.csail.mit.eduでリリースされます。
論文 参考訳(メタデータ) (2020-06-16T14:38:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。