論文の概要: When Misinformation Speaks and Converses: Rethinking Fact-Checking in Audio Platforms
- arxiv url: http://arxiv.org/abs/2604.16767v1
- Date: Sat, 18 Apr 2026 01:25:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.165585
- Title: When Misinformation Speaks and Converses: Rethinking Fact-Checking in Audio Platforms
- Title(参考訳): 誤情報と会話: 音声プラットフォームにおけるFact-Checkingの再考
- Authors: Chaewan Chun, Delvin Ce Zhang, Dongwon Lee,
- Abstract要約: このポジションペーパーは、モーダル性やプラットフォームを越えてエビデンスを合成し、データセットや手法を調べ、既存のパイプラインがオーディオで失敗する理由を強調する。
ファクトチェックを進めるには、音声の音声と会話の現実に関する検証パイプラインを再考する必要がある、と我々は主張する。
- 参考スコア(独自算出の注目度): 12.111195479896557
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio platforms have evolved beyond entertainment. They have become central to public discourse, from podcasts and radio to WhatsApp voice notes and live streams. With millions of shows and hundreds of millions of listeners, audio platforms are now a major channel for misinformation. Yet existing fact-checking pipelines are mostly designed for written claims, overlooking the unique properties of spoken media. We argue that audio misinformation is not merely textual content with transcripts: it is structurally different because it is both spoken - carrying persuasive force through prosody, pacing, and emotion - and conversational - unfolding across turns, speakers, and episodes. These dual properties introduce verification difficulties that traditional methods rarely face. This position paper synthesizes evidence across modalities and platforms, examines datasets and methods, and highlights why existing pipelines fail on audio. We argue that advancing fact-checking requires rethinking verification pipelines around the spoken and conversational realities of audio.
- Abstract(参考訳): オーディオプラットフォームはエンターテイメントを超えて進化してきた。
ポッドキャストやラジオ、WhatsAppのボイスノート、ライブストリームなど、公共の話題の中心になっている。
数百万の番組と数億のリスナーを抱えるオーディオプラットフォームは、今や誤情報の主要なチャネルとなっている。
しかし、既存のファクトチェックパイプラインは、主に記述されたクレームのために設計されており、音声メディアのユニークな特性を見下ろしている。
音声の誤報は、単なるテキストの内容ではなく、韻律、ペーシング、感情を通じて説得力を持ち、旋律、話者、エピソードにまたがって展開されるため、構造的に異なる。
これらの二重特性は、従来の手法がほとんど直面することのない検証困難をもたらす。
このポジションペーパーは、モーダル性やプラットフォームを越えてエビデンスを合成し、データセットや手法を調べ、既存のパイプラインがオーディオで失敗する理由を強調する。
ファクトチェックを進めるには、音声の音声と会話の現実に関する検証パイプラインを再考する必要がある、と我々は主張する。
関連論文リスト
- Listening Between the Lines: Decoding Podcast Narratives with Language Modeling [17.51119928424848]
既存の大規模言語モデルは、一般的にニュース記事のようなより構造化されたテキストで訓練されており、人間のリスナーが物語のフレームを特定するのに頼っている微妙な手がかりを捉えるのに苦労している。
提案手法では,これらの粒度ラベルを用いて,より広範な談話傾向を明らかにする。
論文 参考訳(メタデータ) (2025-11-07T15:12:06Z) - ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing [47.14083940177122]
ThinkSoundは、ビデオの段階的にインタラクティブなオーディオ生成と編集を可能にする新しいフレームワークである。
提案手法は,3つの相補的な段階 – セマンティック・コヒーレント,インタラクティブなオブジェクト中心の改良,ターゲット編集 – に分解する。
実験により、ThinkSoundはオーディオメトリクスとCoTメトリクスの両方で、ビデオからオーディオ生成における最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-06-26T16:32:06Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - Detecting Check-Worthy Claims in Political Debates, Speeches, and
Interviews Using Audio Data [37.62931315840986]
米国における過去の政治討論から48時間のスピーチを含む、新しいマルチモーダルデータセット(テキストと音声)を作成しました。
実験により、複数話者の場合、音声モダリティの追加は、テキストモダリティ単独の使用よりも大きな改善をもたらすことが示された。
論文 参考訳(メタデータ) (2023-05-24T12:09:42Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Human Detection of Political Speech Deepfakes across Transcripts, Audio,
and Video [4.78385214366452]
超現実的な視覚効果と音声効果の技術の進歩は、政治演説のディープフェイクビデオが、真のビデオ記録とはすぐに区別できないという懸念を引き起こしている。
我々は,2,215人の参加者による5つの事前登録されたランダム化実験を行い,人間が実際の政治的言論と製法をいかに正確に区別するかを評価する。
音声アクターの音声と同一のディープフェイクよりも、最先端のテキスト音声合成アルゴリズムが生成するオーディオでは、誤情報のベースレートが識別やディープフェイクに最小限に影響を及ぼすことがわかった。
論文 参考訳(メタデータ) (2022-02-25T18:47:32Z) - Streaming Multi-talker Speech Recognition with Joint Speaker
Identification [77.46617674133556]
SURITは、音声認識と話者識別の両方のバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を採用しています。
Librispeechから派生したマルチストーカーデータセットであるLibrispeechデータセットに関するアイデアを検証し、奨励的な結果を提示した。
論文 参考訳(メタデータ) (2021-04-05T18:37:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。