論文の概要: Punctuation Restoration
- arxiv url: http://arxiv.org/abs/2202.09695v1
- Date: Sat, 19 Feb 2022 23:12:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-22 20:16:55.785235
- Title: Punctuation Restoration
- Title(参考訳): 触覚回復
- Authors: Viet Dac Lai, Amir Pouran Ben Veyseh, Franck Dernoncourt, Thien Huu
Nguyen
- Abstract要約: この研究は、ライブストリーミングビデオの書き起こしで句読点を復元する、BehancePRと呼ばれる新しい人間注記コーパスを提示する。
BehancePRに関する我々の実験は、この領域における句読点復元の課題を実証している。
- 参考スコア(独自算出の注目度): 69.97278287534157
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Given the increasing number of livestreaming videos, automatic speech
recognition and post-processing for livestreaming video transcripts are crucial
for efficient data management as well as knowledge mining. A key step in this
process is punctuation restoration which restores fundamental text structures
such as phrase and sentence boundaries from the video transcripts. This work
presents a new human-annotated corpus, called BehancePR, for punctuation
restoration in livestreaming video transcripts. Our experiments on BehancePR
demonstrate the challenges of punctuation restoration for this domain.
Furthermore, we show that popular natural language processing toolkits are
incapable of detecting sentence boundary on non-punctuated transcripts of
livestreaming videos, calling for more research effort to develop robust models
for this area.
- Abstract(参考訳): ライブストリーミングビデオの増加を考えると,音声の自動認識と後処理は,効率的なデータ管理や知識マイニングに不可欠である。
このプロセスの重要なステップは、ビデオの転写から句や文境界などの基本的なテキスト構造を復元する句の復元である。
本研究は,ライブストリーミング映像における句読点復元のためのbehanceprと呼ばれる新しい人間の注釈付きコーパスを提案する。
我々のbehancepr実験は,この領域における句読点復元の課題を実証するものである。
さらに,人気のある自然言語処理ツールキットでは,ライブストリーミング動画の非punctuated transcriptでは文境界を検出できないため,この領域で頑健なモデルを開発するためのさらなる研究が求められている。
関連論文リスト
- Recent Advances in Speech Language Models: A Survey [45.968078636811356]
音声言語モデル(SpeechLMs)は、テキストから変換することなく音声を生成するエンドツーエンドモデルである。
本稿では,近年のSpeechLM構築手法について概観する。
論文 参考訳(メタデータ) (2024-10-01T21:48:12Z) - Speech Editing -- a Summary [8.713498822221222]
本稿では,手動による波形編集を必要とせず,テキストの書き起こしによって音声を編集するテキストベースの音声編集手法について検討する。
目的は、進行中の問題を強調し、音声編集におけるさらなる研究と革新を刺激することである。
論文 参考訳(メタデータ) (2024-07-24T11:22:57Z) - Towards Accurate Lip-to-Speech Synthesis in-the-Wild [31.289366690147556]
そこで本研究では,唇の動きのみをベースとしたサイレントビデオから音声を合成する手法を提案する。
リップビデオから直接音声を生成する従来のアプローチは、音声だけで堅牢な言語モデルを学べないという課題に直面している。
我々は,我々のモデルに言語情報を注入する最先端のリップ・トゥ・テキスト・ネットワークを用いて,ノイズの多いテキスト管理を導入することを提案する。
論文 参考訳(メタデータ) (2024-03-02T04:07:24Z) - TVTSv2: Learning Out-of-the-box Spatiotemporal Visual Representations at
Scale [59.01246141215051]
言語指導の観点から,その劣化要因を分析した。
本稿では,テキストエンコーダの一般化能力を維持するために,教師なし事前学習戦略を提案する。
最大10億のパラメータを持つTVTSv2と呼ばれる一連のモデルを作成します。
論文 参考訳(メタデータ) (2023-05-23T15:44:56Z) - SpeechCLIP: Integrating Speech with Pre-Trained Vision and Language
Model [56.49878599920353]
SpeechCLIPは、画像を通して音声とテキストをブリッジし、文字起こしなしに音声モデルを強化する新しいフレームワークである。
我々は、最先端の訓練済みのHuBERTとCLIPを活用し、ペア画像と音声キャプションを最小限の微調整で調整する。
論文 参考訳(メタデータ) (2022-10-03T04:15:36Z) - Transcribing Natural Languages for The Deaf via Neural Editing Programs [84.0592111546958]
本研究の目的は,難聴者コミュニティのための自然言語文の書き起こしを目的とし,手話の発声を指示するグロス化の課題について検討することである。
以前のシーケンス・ツー・シーケンス言語モデルは、しばしば2つの異なる言語間の豊かな関係を捉えず、不満足な書き起こしにつながる。
異なる文法に拘わらず,単語の大部分を文と共有しながら,難聴コミュニケーションの容易な文を効果的に単純化することが観察された。
論文 参考訳(メタデータ) (2021-12-17T16:21:49Z) - StreamHover: Livestream Transcript Summarization and Annotation [54.41877742041611]
ライブストリームの書き起こしを注釈付けして要約するフレームワークであるStreamHoverを紹介します。
合計500時間以上のビデオに抽出的要約と抽象的要約を併用したベンチマークデータセットは,既存の注釈付きコーパスよりもはるかに大きい。
我々のモデルはより一般化され、強力なベースラインよりも性能が向上することを示す。
論文 参考訳(メタデータ) (2021-09-11T02:19:37Z) - Towards Automatic Speech to Sign Language Generation [35.22004819666906]
音声セグメントからシグナのポーズを生成するために訓練された多言語トランスフォーマーネットワークを提案する。
我々のモデルは、エンドツーエンドで連続的なサインポーズ列を生成することを学習する。
論文 参考訳(メタデータ) (2021-06-24T06:44:19Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。