論文の概要: Detecting Check-Worthy Claims in Political Debates, Speeches, and
Interviews Using Audio Data
- arxiv url: http://arxiv.org/abs/2306.05535v1
- Date: Wed, 24 May 2023 12:09:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-18 13:09:44.686277
- Title: Detecting Check-Worthy Claims in Political Debates, Speeches, and
Interviews Using Audio Data
- Title(参考訳): 音声データを用いた政治討論, スピーチ, インタビューにおけるチェックワード主張の検出
- Authors: Petar Ivanov, Ivan Koychev, Momchil Hardalov, Preslav Nakov
- Abstract要約: 付加的な情報源としての音声信号の有用性について検討する。
我々は48時間音声を含む新しいマルチモーダルデータセット(テキストと音声)を作成する。
評価の結果,複数話者の場合,音声のモダリティはテキストのみよりも向上することがわかった。
- 参考スコア(独自算出の注目度): 20.361001502832913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A large portion of society united around the same vision and ideas carries
enormous energy. That is precisely what political figures would like to
accumulate for their cause. With this goal in mind, they can sometimes resort
to distorting or hiding the truth, unintentionally or on purpose, which opens
the door for misinformation and disinformation. Tools for automatic detection
of check-worthy claims would be of great help to moderators of debates,
journalists, and fact-checking organizations. While previous work on detecting
check-worthy claims has focused on text, here we explore the utility of the
audio signal as an additional information source. We create a new multimodal
dataset (text and audio in English) containing 48 hours of speech. Our
evaluation results show that the audio modality together with text yields
improvements over text alone in the case of multiple speakers. Moreover, an
audio-only model could outperform a text-only one for a single speaker.
- Abstract(参考訳): 社会の大部分を同じビジョンとアイデアで結集し、膨大なエネルギーを消費する。
これはまさに政治関係者が自分たちの目的のために蓄積したいものだ。
この目標を念頭に置いて、意図せず、あるいは故意に真実をゆがめたり隠したりすることで、誤った情報や偽情報への扉を開くことができる。
チェックに値するクレームを自動的に検出するツールは、議論やジャーナリスト、ファクトチェックを行う組織のモデレーターにとって非常に役立ちます。
これまで、チェック価値の高いクレームの検出はテキストに焦点を当ててきたが、ここでは音声信号が追加情報源としての有用性について検討する。
私たちは、48時間の音声を含む新しいマルチモーダルデータセット(英語でテキストと音声)を作成します。
評価の結果,複数話者の場合,音声のモーダリティとテキストとの併用により,テキスト単独による改善がみられた。
さらに、音声のみのモデルは、単一の話者に対してテキストのみのモデルよりも優れている。
関連論文リスト
- Gibberish is All You Need for Membership Inference Detection in Contrastive Language-Audio Pretraining [3.7144455366570055]
既存のMIAは入力としてオーディオを必要とし、音声プリントの露出を危険にさらし、コストのかかるシャドウモデルを必要とする。
我々はまず,CLAPが与える会員推論検出に基づく確率ランキングである PRMID を提案し,訓練シャドウモデルを必要としない。
次に,テキストデータのみを用いて対象モデルを問合せする一助話者レベルメンバシップ推定器USMIDを提案する。
論文 参考訳(メタデータ) (2024-10-24T02:26:57Z) - Identifying Speakers in Dialogue Transcripts: A Text-based Approach Using Pretrained Language Models [83.7506131809624]
本稿では,デジタルメディアアーカイブにおけるコンテンツアクセシビリティと検索可能性を高める重要な課題である,対話テキスト中の話者名を識別する手法を提案する。
本稿では,メディアサムコーパスから派生した大規模データセットについて述べる。
本稿では,話者名を正確に属性付けるために,対話中の文脈的手がかりを活用する,話者IDに適したトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2024-07-16T18:03:58Z) - Temporally Aligning Long Audio Interviews with Questions: A Case Study
in Multimodal Data Integration [36.432286468938884]
この研究は、CARE Indiaという非政府組織と共同で、長期にわたるオーディオ健康調査を収集している。
これらの調査を案内するために使用されるアンケートから抽出された質問に対し、長い音声記録の中で質問がどこにあるかを特定することを目的としている。
提案するフレームワークであるINDENTは,単語の時間的順序に関する事前情報を用いて,音声の埋め込みを学習する。
論文 参考訳(メタデータ) (2023-10-10T15:25:33Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented
Dialogue Agents [72.42049370297849]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z) - Faked Speech Detection with Zero Prior Knowledge [2.407976495888858]
本稿では,入力音声を実物または模倣物として盲目的に分類する分類器を開発するニューラルネットワーク手法を提案する。
本稿では,3層を隠蔽し,重層と落層を交互に交互に配置した逐次モデルに基づくディープニューラルネットワークを提案する。
人間の観察者の場合の85%の精度に対して、テストケースの94%の正確な分類が得られた。
論文 参考訳(メタデータ) (2022-09-26T10:38:39Z) - WenetSpeech: A 10000+ Hours Multi-domain Mandarin Corpus for Speech
Recognition [25.31180901037065]
WenetSpeechは、10000時間以上の高品質なラベル付き音声からなる多ドメインマンダリンコーパスである。
YouTubeとPodcastから収集したデータは、さまざまな話し方、シナリオ、ドメイン、トピック、騒々しい条件をカバーしています。
論文 参考訳(メタデータ) (2021-10-07T12:05:29Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - HarperValleyBank: A Domain-Specific Spoken Dialog Corpus [7.331287001215395]
HarperValleyBankは、パブリックドメインのダイアログコーパスである。
このデータは単純な消費者銀行の対話をシミュレートし、1,446人の人間と会話から約23時間の音声を含む。
論文 参考訳(メタデータ) (2020-10-26T22:16:52Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。