論文の概要: Experiences with the Introduction of AI-based Tools for Moderation
Automation of Voice-based Participatory Media Forums
- arxiv url: http://arxiv.org/abs/2108.04208v1
- Date: Mon, 9 Aug 2021 17:50:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-18 23:28:34.584707
- Title: Experiences with the Introduction of AI-based Tools for Moderation
Automation of Voice-based Participatory Media Forums
- Title(参考訳): 音声による参加型メディアフォーラムのモデレーション自動化のためのAIツールの導入経験
- Authors: Aman Khullar, Paramita Panjal, Rachit Pandey, Abhishek Burnwal,
Prashit Raj, Ankit Akash Jha, Priyadarshi Hitesh, R Jayanth Reddy, Himanshu,
Aaditeshwar Seth
- Abstract要約: 我々は、空白またはノイズの多い音声をフィルタリングするAIツールを導入し、音声認識を使ってテキストで音声メッセージを書き起こし、自然言語処理技術を使って音声書き起こしからメタデータを抽出する。
本稿では,これらのツールの導入による時間とコスト削減の点から,AIベースの自動化のワークフローへの受容性に対するモデレーターのフィードバックについて述べる。
我々の研究は、いくつかのルーチンタスクの自動化にAIを使用する場合のケーススタディを形成しており、特に、発展途上国における音声技術の使用に関わる他の研究者や実践者には特に関係がある。
- 参考スコア(独自算出の注目度): 0.5243067689245634
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Voice-based discussion forums where users can record audio messages which are
then published for other users to listen and comment, are often moderated to
ensure that the published audios are of good quality, relevant, and adhere to
editorial guidelines of the forum. There is room for the introduction of
AI-based tools in the moderation process, such as to identify and filter out
blank or noisy audios, use speech recognition to transcribe the voice messages
in text, and use natural language processing techniques to extract relevant
metadata from the audio transcripts. We design such tools and deploy them
within a social enterprise working in India that runs several voice-based
discussion forums. We present our findings in terms of the time and
cost-savings made through the introduction of these tools, and describe the
feedback of the moderators towards the acceptability of AI-based automation in
their workflow. Our work forms a case-study in the use of AI for automation of
several routine tasks, and can be especially relevant for other researchers and
practitioners involved with the use of voice-based technologies in developing
regions of the world.
- Abstract(参考訳): 音声ベースのディスカッションフォーラムでは、ユーザーが録音した音声メッセージを他のユーザーが聴いたりコメントしたりできるように記録することができるが、公開した音声が品質が良く、関連があり、フォーラムの編集ガイドラインに準拠していることを保証するために、しばしばモデレートされる。
モデレーションプロセスにaiベースのツールを導入する余地がある。例えば、空白または騒がしいオーディオを識別し、フィルタリングし、音声認識を使用してテキストで音声メッセージを書き起こし、自然言語処理技術を使用してオーディオコピーから関連するメタデータを抽出する。
このようなツールを設計し、いくつかの音声ベースのディスカッションフォーラムを運営しているインドで働くソーシャル企業に展開します。
本稿では,これらのツールの導入による時間とコスト削減の点から,AIベースの自動化のワークフローへの受容性に対するモデレーターのフィードバックについて述べる。
我々の研究は、いくつかの日常的なタスクの自動化にAIを使うことのケーススタディを形成しており、特に世界の発展途上国で音声ベースの技術を使用することに関わる他の研究者や実践者には関係がある。
関連論文リスト
- Large Language Model Based Generative Error Correction: A Challenge and Baselines for Speech Recognition, Speaker Tagging, and Emotion Recognition [110.8431434620642]
生成音声の書き起こし誤り訂正(GenSEC)の課題について紹介する。
この課題は、(i)ASR後の転写補正、(ii)話者タグ付け、(iii)感情認識という、3つのASR後の言語モデリングタスクを含む。
本稿では,ベースライン評価から得られた知見と,今後の評価設計における教訓について論じる。
論文 参考訳(メタデータ) (2024-09-15T16:32:49Z) - Automatic Speech Recognition for Hindi [0.6292138336765964]
この研究は、Webアプリケーションの開発と音声認識のためのWebインターフェースの設計に関するものだった。
ウェブアプリケーションは、大量のオーディオファイルとその転写を管理し、ASR転写の人間の修正を容易にする。
音声認識用Webインターフェースは、Webアプリを実行するデバイスから16kHzのモノオーディオを記録し、音声アクティビティ検出(VAD)を行い、音声認識エンジンに音声を送信する。
論文 参考訳(メタデータ) (2024-06-26T07:39:20Z) - App for Resume-Based Job Matching with Speech Interviews and Grammar
Analysis: A Review [0.11249583407496219]
本稿では,ジョブインタビュー作成のための音声とテキストに基づく自然言語処理を提供するエンドツーエンドシステムの実現可能性について検討する。
既存のレコメンデータベースのシステムについても検討し、その制限に注意する。
論文 参考訳(メタデータ) (2023-11-20T18:03:08Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Speech Aware Dialog System Technology Challenge (DSTC11) [12.841429336655736]
タスク指向ダイアログモデリングのほとんどの研究は、テキスト入力に基づいている。
TTS-Verbatim: テキスト入力をTTSシステムを用いて音声波形に変換し, (b) ヒューマン・ヴァーバティム: ユーザ入力を動詞入力, (c) ヒューマン・パラフレーズ化: ユーザ入力をパラフレーズ化した。
論文 参考訳(メタデータ) (2022-12-16T20:30:33Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - SpeechBrain: A General-Purpose Speech Toolkit [73.0404642815335]
SpeechBrainはオープンソースでオールインワンの音声ツールキットである。
ニューラル音声処理技術の研究開発を促進するために設計された。
幅広い音声ベンチマークにおいて、競争力や最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-06-08T18:22:56Z) - Using Voice and Biofeedback to Predict User Engagement during
Requirements Interviews [11.277063517143565]
本稿では,生理的特徴および音声的特徴の観点から生体データを用いて,ユーザエンゲージメントに関する情報とインタビューを補完することを提案する。
本アプローチは,empatica e4リストバンドを用いて,身体データを収集しながらユーザへインタビューすることで評価する。
その結果,生体データを用いた教師付き機械学習アルゴリズムの学習により,ユーザのエンゲージメントを予測することができた。
論文 参考訳(メタデータ) (2021-04-06T10:34:36Z) - Voice Privacy with Smart Digital Assistants in Educational Settings [1.8369974607582578]
ソースにおける音声プライバシーのための実用的で効率的なフレームワークを設計・評価する。
このアプローチでは、話者識別(SID)と音声変換法を組み合わせて、音声を記録するデバイス上でユーザのアイデンティティをランダムに偽装する。
我々は、単語誤り率の観点から変換のASR性能を評価し、入力音声の内容を保存する上で、このフレームワークの約束を示す。
論文 参考訳(メタデータ) (2021-03-24T19:58:45Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。