論文の概要: Detecting Check-Worthy Claims in Political Debates, Speeches, and
Interviews Using Audio Data
- arxiv url: http://arxiv.org/abs/2306.05535v2
- Date: Wed, 17 Jan 2024 19:39:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-19 20:32:58.356864
- Title: Detecting Check-Worthy Claims in Political Debates, Speeches, and
Interviews Using Audio Data
- Title(参考訳): 音声データを用いた政治討論, スピーチ, インタビューにおけるチェックワード主張の検出
- Authors: Petar Ivanov, Ivan Koychev, Momchil Hardalov, Preslav Nakov
- Abstract要約: 米国における過去の政治討論から48時間のスピーチを含む、新しいマルチモーダルデータセット(テキストと音声)を作成しました。
実験により、複数話者の場合、音声モダリティの追加は、テキストモダリティ単独の使用よりも大きな改善をもたらすことが示された。
- 参考スコア(独自算出の注目度): 37.62931315840986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developing tools to automatically detect check-worthy claims in political
debates and speeches can greatly help moderators of debates, journalists, and
fact-checkers. While previous work on this problem has focused exclusively on
the text modality, here we explore the utility of the audio modality as an
additional input. We create a new multimodal dataset (text and audio in
English) containing 48 hours of speech from past political debates in the USA.
We then experimentally demonstrate that, in the case of multiple speakers,
adding the audio modality yields sizable improvements over using the text
modality alone; moreover, an audio-only model could outperform a text-only one
for a single speaker. With the aim to enable future research, we make all our
data and code publicly available at
https://github.com/petar-iv/audio-checkworthiness-detection.
- Abstract(参考訳): 政治討論や演説でチェックに値するクレームを自動的に検出するツールの開発は、ディベート、ジャーナリスト、ファクトチェッカーのモデレーターに大いに役立つ。
この問題に関するこれまでの研究は、テキストモダリティにのみ焦点を合わせてきたが、ここでは、追加入力としてのオーディオモダリティの有用性について検討する。
米国における過去の政治討論から48時間のスピーチを含む、新しいマルチモーダルデータセット(テキストと音声)を作成しました。
実験により、複数話者の場合、音声モダリティの追加は、テキストモダリティのみの使用よりも大幅に改善され、さらに、音声のみのモデルが単一の話者に対してテキストのみのモデルよりも優れていることを示した。
将来の研究を可能にするために、すべてのデータとコードをhttps://github.com/petar-iv/audio-checkworthiness-detectionで公開しています。
関連論文リスト
- Gibberish is All You Need for Membership Inference Detection in Contrastive Language-Audio Pretraining [3.7144455366570055]
既存のMIAは入力としてオーディオを必要とし、音声プリントの露出を危険にさらし、コストのかかるシャドウモデルを必要とする。
我々はまず,CLAPが与える会員推論検出に基づく確率ランキングである PRMID を提案し,訓練シャドウモデルを必要としない。
次に,テキストデータのみを用いて対象モデルを問合せする一助話者レベルメンバシップ推定器USMIDを提案する。
論文 参考訳(メタデータ) (2024-10-24T02:26:57Z) - Identifying Speakers in Dialogue Transcripts: A Text-based Approach Using Pretrained Language Models [83.7506131809624]
本稿では,デジタルメディアアーカイブにおけるコンテンツアクセシビリティと検索可能性を高める重要な課題である,対話テキスト中の話者名を識別する手法を提案する。
本稿では,メディアサムコーパスから派生した大規模データセットについて述べる。
本稿では,話者名を正確に属性付けるために,対話中の文脈的手がかりを活用する,話者IDに適したトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2024-07-16T18:03:58Z) - Temporally Aligning Long Audio Interviews with Questions: A Case Study
in Multimodal Data Integration [36.432286468938884]
この研究は、CARE Indiaという非政府組織と共同で、長期にわたるオーディオ健康調査を収集している。
これらの調査を案内するために使用されるアンケートから抽出された質問に対し、長い音声記録の中で質問がどこにあるかを特定することを目的としている。
提案するフレームワークであるINDENTは,単語の時間的順序に関する事前情報を用いて,音声の埋め込みを学習する。
論文 参考訳(メタデータ) (2023-10-10T15:25:33Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented
Dialogue Agents [72.42049370297849]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z) - Faked Speech Detection with Zero Prior Knowledge [2.407976495888858]
本稿では,入力音声を実物または模倣物として盲目的に分類する分類器を開発するニューラルネットワーク手法を提案する。
本稿では,3層を隠蔽し,重層と落層を交互に交互に配置した逐次モデルに基づくディープニューラルネットワークを提案する。
人間の観察者の場合の85%の精度に対して、テストケースの94%の正確な分類が得られた。
論文 参考訳(メタデータ) (2022-09-26T10:38:39Z) - WenetSpeech: A 10000+ Hours Multi-domain Mandarin Corpus for Speech
Recognition [25.31180901037065]
WenetSpeechは、10000時間以上の高品質なラベル付き音声からなる多ドメインマンダリンコーパスである。
YouTubeとPodcastから収集したデータは、さまざまな話し方、シナリオ、ドメイン、トピック、騒々しい条件をカバーしています。
論文 参考訳(メタデータ) (2021-10-07T12:05:29Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - HarperValleyBank: A Domain-Specific Spoken Dialog Corpus [7.331287001215395]
HarperValleyBankは、パブリックドメインのダイアログコーパスである。
このデータは単純な消費者銀行の対話をシミュレートし、1,446人の人間と会話から約23時間の音声を含む。
論文 参考訳(メタデータ) (2020-10-26T22:16:52Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。