論文の概要: The System Description of dun_oscar team for The ICPR MSR Challenge
- arxiv url: http://arxiv.org/abs/2303.06878v1
- Date: Mon, 13 Mar 2023 05:53:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 16:13:23.558033
- Title: The System Description of dun_oscar team for The ICPR MSR Challenge
- Title(参考訳): ICPR MSR ChallengeにおけるDun_oscarチームのシステム記述
- Authors: Binbin Du, Rui Deng, Yingxin Zhang
- Abstract要約: 本稿では,ICPR MSR Challengeのためにdun_oscarチームが提出したシステムを紹介する。
Task1-task3の3つのサブシステムがそれぞれ記述されている。
- 参考スコア(独自算出の注目度): 5.199454801210509
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces the system submitted by dun_oscar team for the ICPR MSR
Challenge. Three subsystems for task1-task3 are descripted respectively. In
task1, we develop a visual system which includes a OCR model, a text tracker,
and a NLP classifier for distinguishing subtitles and non-subtitles. In task2,
we employ an ASR system which includes an AM with 18 layers and a 4-gram LM.
Semi-supervised learning on unlabeled data is also vital. In task3, we employ
the ASR system to improve the visual system, some false subtitles can be
corrected by a fusion module.
- Abstract(参考訳): 本稿では,ICPR MSR Challengeのためにdun_oscarチームが提出したシステムを紹介する。
task1-task3の3つのサブシステムはそれぞれ記述される。
タスク1では、サブタイトルと非サブタイトルを区別するOCRモデル、テキストトラッカー、NLP分類器を含む視覚システムを開発する。
タスク2では,18層のAMと4グラムのLMを備えたASRシステムを用いる。
ラベルなしデータの半教師付き学習も不可欠である。
task3では、asrシステムを用いて視覚システムを改善し、いくつかの偽の字幕をフュージョンモジュールで修正する。
関連論文リスト
- AutoAD-Zero: A Training-Free Framework for Zero-Shot Audio Description [92.72058446133468]
本研究の目的は,映画とテレビシリーズのオーディオ記述(AD)を無訓練で生成することである。
市販のビジュアル言語モデル(VLM)と大規模言語モデル(LLM)のパワーを利用する。
当社のアプローチであるAutoAD-Zeroは、映画とテレビシリーズのAD生成において優れたパフォーマンスを示し、最先端のCRITICスコアを達成しています。
論文 参考訳(メタデータ) (2024-07-22T17:59:56Z) - The NPU-ASLP-LiAuto System Description for Visual Speech Recognition in
CNVSRC 2023 [67.11294606070278]
本稿では,第1回中国連続視覚音声認識チャレンジ(CNVSRC)2023において,NPU-ASLP-LiAuto(Team 237)が導入した視覚音声認識システムについて述べる。
データ処理に関しては,ベースライン1からリップモーション抽出器を利用してマルチスケール映像データを生成する。
トレーニング中に、速度摂動、ランダム回転、水平反転、色変換を含む様々な拡張技術が適用される。
論文 参考訳(メタデータ) (2024-01-07T14:20:52Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Unsupervised Speech Recognition with N-Skipgram and Positional Unigram
Matching [67.98016412551245]
本稿では,新しいASRシステムであるESPUMを紹介する。
このシステムは、少数のサンプルから収集された位置ユニグラム統計と合わせて、低階N-スキップグラム(最大N=3)のパワーを利用する。
本モデルは,ASRと音素セグメンテーションにおける競合性能を示す。
論文 参考訳(メタデータ) (2023-10-03T19:05:32Z) - PromptASR for contextualized ASR with controllable style [19.493184060647728]
本稿では,エンドツーエンドの自動音声認識システムにプロンプトを統合するフレームワークであるPromptASRを提案する。
本システムでは,書籍読解データセットの単語誤り率を21.9%と6.8%削減する。
テキストエンコーダに追加のスタイルプロンプトを付与し、ASRシステムを誘導して異なるスタイルの書き起こしを出力する。
論文 参考訳(メタデータ) (2023-09-14T03:43:07Z) - The CHiME-7 DASR Challenge: Distant Meeting Transcription with Multiple
Devices in Diverse Scenarios [61.74042680711718]
第7回CHiMEチャレンジにおいて,CHiME-7 遠隔 ASR (DASR) タスクを紹介した。
このタスクは、複数の、おそらくは異種な記録装置を備えた遠距離フィールド設定での共同ASRとダイアリゼーションを含む。
目的は、参加者が異なる配列のジオメトリをまたいで一般化できる単一のシステムを考案することである。
論文 参考訳(メタデータ) (2023-06-23T18:49:20Z) - Effectiveness of Text, Acoustic, and Lattice-based representations in
Spoken Language Understanding tasks [5.66060067322059]
インテント検出タスクを実行するために,3種類のシステムをベンチマークする。
本研究では,公用SLURP音声言語資源コーパスのシステム評価を行う。
論文 参考訳(メタデータ) (2022-12-16T14:01:42Z) - The SpeakIn System Description for CNSRC2022 [14.173172568687413]
本稿では,CN-Celeb Speaker Recognition Challenge 2022(CNSRC 2022)の課題に対する話者検証システムについて述べる。
この課題には、話者検証(SV)と話者検索(SR)の2つのタスクが含まれる。
論文 参考訳(メタデータ) (2022-09-22T08:17:47Z) - On Building Spoken Language Understanding Systems for Low Resourced
Languages [1.2183405753834562]
極端に低リソースな環境を探索する一連の実験を提示する。
インテント毎に1つのデータポイントをトレーニングし、データセットに1つの話者しか持たないシステムでインテント分類を行う。
このような低リソース環境における意図的分類システムを構築するために音声文字起こしを用いる場合、音声特徴を用いた場合よりもかなり良い結果が得られた。
論文 参考訳(メタデータ) (2022-05-25T14:44:51Z) - C3-STISR: Scene Text Image Super-resolution with Triple Clues [22.41802601665541]
Scene text image super- resolution (STISR) は、テキスト認識のための重要な前処理タスクとみなされている。
最近のアプローチでは、認識者のフィードバックを超解像を導く手がかりとして用いている。
超解像誘導のための手がかりとして,認識者のフィードバック,視覚情報,言語情報を共同で活用する新しい手法C3-STISRを提案する。
論文 参考訳(メタデータ) (2022-04-29T12:39:51Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。