論文の概要: Detecting Check-Worthy Claims in Political Debates, Speeches, and
Interviews Using Audio Data
- arxiv url: http://arxiv.org/abs/2306.05535v1
- Date: Wed, 24 May 2023 12:09:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-18 13:09:44.686277
- Title: Detecting Check-Worthy Claims in Political Debates, Speeches, and
Interviews Using Audio Data
- Title(参考訳): 音声データを用いた政治討論, スピーチ, インタビューにおけるチェックワード主張の検出
- Authors: Petar Ivanov, Ivan Koychev, Momchil Hardalov, Preslav Nakov
- Abstract要約: 付加的な情報源としての音声信号の有用性について検討する。
我々は48時間音声を含む新しいマルチモーダルデータセット(テキストと音声)を作成する。
評価の結果,複数話者の場合,音声のモダリティはテキストのみよりも向上することがわかった。
- 参考スコア(独自算出の注目度): 20.361001502832913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A large portion of society united around the same vision and ideas carries
enormous energy. That is precisely what political figures would like to
accumulate for their cause. With this goal in mind, they can sometimes resort
to distorting or hiding the truth, unintentionally or on purpose, which opens
the door for misinformation and disinformation. Tools for automatic detection
of check-worthy claims would be of great help to moderators of debates,
journalists, and fact-checking organizations. While previous work on detecting
check-worthy claims has focused on text, here we explore the utility of the
audio signal as an additional information source. We create a new multimodal
dataset (text and audio in English) containing 48 hours of speech. Our
evaluation results show that the audio modality together with text yields
improvements over text alone in the case of multiple speakers. Moreover, an
audio-only model could outperform a text-only one for a single speaker.
- Abstract(参考訳): 社会の大部分を同じビジョンとアイデアで結集し、膨大なエネルギーを消費する。
これはまさに政治関係者が自分たちの目的のために蓄積したいものだ。
この目標を念頭に置いて、意図せず、あるいは故意に真実をゆがめたり隠したりすることで、誤った情報や偽情報への扉を開くことができる。
チェックに値するクレームを自動的に検出するツールは、議論やジャーナリスト、ファクトチェックを行う組織のモデレーターにとって非常に役立ちます。
これまで、チェック価値の高いクレームの検出はテキストに焦点を当ててきたが、ここでは音声信号が追加情報源としての有用性について検討する。
私たちは、48時間の音声を含む新しいマルチモーダルデータセット(英語でテキストと音声)を作成します。
評価の結果,複数話者の場合,音声のモーダリティとテキストとの併用により,テキスト単独による改善がみられた。
さらに、音声のみのモデルは、単一の話者に対してテキストのみのモデルよりも優れている。
関連論文リスト
- Temporally Aligning Long Audio Interviews with Questions: A Case Study
in Multimodal Data Integration [36.432286468938884]
この研究は、CARE Indiaという非政府組織と共同で、長期にわたるオーディオ健康調査を収集している。
これらの調査を案内するために使用されるアンケートから抽出された質問に対し、長い音声記録の中で質問がどこにあるかを特定することを目的としている。
提案するフレームワークであるINDENTは,単語の時間的順序に関する事前情報を用いて,音声の埋め込みを学習する。
論文 参考訳(メタデータ) (2023-10-10T15:25:33Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented
Dialogue Agents [72.42049370297849]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - Faked Speech Detection with Zero Prior Knowledge [2.407976495888858]
本稿では,入力音声を実物または模倣物として盲目的に分類する分類器を開発するニューラルネットワーク手法を提案する。
本稿では,3層を隠蔽し,重層と落層を交互に交互に配置した逐次モデルに基づくディープニューラルネットワークを提案する。
人間の観察者の場合の85%の精度に対して、テストケースの94%の正確な分類が得られた。
論文 参考訳(メタデータ) (2022-09-26T10:38:39Z) - ADIMA: Abuse Detection In Multilingual Audio [28.64185949388967]
音声テキストにおける乱用コンテンツ検出は、音声認識(ASR)を実行し、自然言語処理の進歩を活用することで対処することができる。
ADIMAは,言語学的に多様であり,倫理的にも特徴的であり,注釈付きかつバランスの取れた多言語多義性検出音声データセットである。
論文 参考訳(メタデータ) (2022-02-16T11:09:50Z) - WenetSpeech: A 10000+ Hours Multi-domain Mandarin Corpus for Speech
Recognition [25.31180901037065]
WenetSpeechは、10000時間以上の高品質なラベル付き音声からなる多ドメインマンダリンコーパスである。
YouTubeとPodcastから収集したデータは、さまざまな話し方、シナリオ、ドメイン、トピック、騒々しい条件をカバーしています。
論文 参考訳(メタデータ) (2021-10-07T12:05:29Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - HarperValleyBank: A Domain-Specific Spoken Dialog Corpus [7.331287001215395]
HarperValleyBankは、パブリックドメインのダイアログコーパスである。
このデータは単純な消費者銀行の対話をシミュレートし、1,446人の人間と会話から約23時間の音声を含む。
論文 参考訳(メタデータ) (2020-10-26T22:16:52Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。