Fugu-MT 論文翻訳(概要): Misinformation Span Detection in Videos via Audio Transcripts

論文の概要: Misinformation Span Detection in Videos via Audio Transcripts

arxiv url: http://arxiv.org/abs/2604.21767v1
Date: Thu, 23 Apr 2026 15:23:13 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-24 14:40:06.68128
Title: Misinformation Span Detection in Videos via Audio Transcripts
Title（参考訳）: 音声記録によるビデオ中の誤情報スパン検出
Authors: Breno Matos, Rennan C. Lima, Savvas Zannettou, Fabricio Benevenuto, Rodrygo L. T. Santos,
Abstract要約: 我々は2つの新しいデータセットを作成し、音声の書き起こしによるビデオの誤情報検出を探索する。我々は、各ビデオの音声をテキストに書き起こし、誤報が現れるビデオセグメントを特定する。以上の結果から,F1スコア0.68の誤報がビデオのどの部分にあるかを特定できることがわかった。
参考スコア（独自算出の注目度）: 6.262239090050024
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Online misinformation is one of the most challenging issues lately, yielding severe consequences, including political polarization, attacks on democracy, and public health risks. Misinformation manifests in any platform with a large user base, including online social networks and messaging apps. It permeates all media and content forms, including images, text, audio, and video. Distinctly, video-based misinformation represents a multifaceted challenge for fact-checkers, given the ease with which individuals can record and upload videos on various video-sharing platforms. Previous research efforts investigated detecting video-based misinformation, focusing on whether a video shares misinformation or not on a video level. While this approach is useful, it only provides a limited and non-easily interpretable view of the problem given that it does not provide an additional context of when misinformation occurs within videos and what content (i.e., claims) are responsible for the video's misinformation nature. In this work, we attempt to bridge this research gap by creating two novel datasets that allow us to explore misinformation detection on videos via audio transcripts, focusing on identifying the span of videos that are responsible for the video's misinformation claim (misinformation span detection). We present two new datasets for this task. We transcribe each video's audio to text, identifying the video segment in which the misinformation claims appears, resulting in two datasets of more than 500 videos with over 2,400 segments containing annotated fact-checked claims. Then, we employ classifiers built with state-of-the-art language models, and our results show that we can identify in which part of a video there is misinformation with an F1 score of 0.68. We make publicly available our annotated datasets. We also release all transcripts, audio and videos.
Abstract（参考訳）: オンライン誤報は最近最も困難な問題の一つであり、政治的分極、民主主義への攻撃、公衆衛生上のリスクなど深刻な結果をもたらしている。誤報は、オンラインソーシャルネットワークやメッセージングアプリなど、大きなユーザーベースを持つあらゆるプラットフォームに現れます。画像、テキスト、オーディオ、ビデオなど、すべてのメディアやコンテンツ形式に浸透する。ビデオベースの誤報は、個人がさまざまなビデオ共有プラットフォームでビデオを録画したりアップロードしたりすることの容易さを考えると、ファクトチェッカーにとって多面的な課題だ。従来の研究では、ビデオが誤情報を共有しているかどうかに焦点をあてて、ビデオに基づく誤情報を検出する研究が進められていた。このアプローチは有用であるが、ビデオ内での誤情報の発生と、ビデオの誤情報の性質にどのコンテンツ(すなわち、クレーム)が責任を負うかという追加の文脈を提供していないことを考えると、問題に対する限定的で容易に解釈できない見解を提供するだけである。本研究では、この研究ギャップを補うために、2つの新しいデータセットを作成し、音声書き起こしによるビデオの誤情報検出を探索し、ビデオの誤情報検出(誤情報スパン検出)の原因となるビデオの特定に焦点をあてる。このタスクには2つの新しいデータセットを提示する。それぞれのビデオの音声をテキストに書き起こし、誤報が現れるビデオセグメントを特定し、2400以上のセグメントに注釈付き事実チェックのクレームを含む500以上のビデオの2つのデータセットを作成します。次に,最先端の言語モデルで構築した分類器を用いて,F1スコア0.68の誤情報のあるビデオのどの部分かを特定することができることを示す。アノテーション付きデータセットを公開しています。また、すべての書き起こし、オーディオ、ビデオもリリースしています。

関連論文リスト

MultiVENT 2.0: A Massive Multilingual Benchmark for Event-Centric Video Retrieval [57.891157692501345]
$textbfMultiVENT 2.0$は、大規模かつ多言語なイベント中心のビデオ検索ベンチマークである。 218,000以上のニュースビデオと、特定の世界イベントを対象とした3,906のクエリが提供されている。予備的な結果は、最先端のビジョン言語モデルは、この課題にかなり苦労していることを示している。
論文参考訳（メタデータ） (2024-10-15T13:56:34Z)
Multi-modal News Understanding with Professionally Labelled Videos (ReutersViLNews) [25.78619140103048]
我々はReuters ViLNewsデータセットと呼ばれるReuters News Agencyが収集した社内データセットを大規模に分析した。このデータセットは、長文ニュースに重点を置いて、ハイレベルなビデオ言語理解に焦点を当てている。その結果,ニュース指向ビデオは現在のビデオ言語理解アルゴリズムにとって大きな課題であることが示唆された。
論文参考訳（メタデータ） (2024-01-23T00:42:04Z)
Not all Fake News is Written: A Dataset and Analysis of Misleading Video Headlines [6.939987423356328]
本稿では、ビデオからなるデータセットと、その見出しがビデオの内容を表すものであるとアノテーションが信じているか否かを示す。このデータセットを収集、注釈付けした後、誤解を招く見出しを検出するためのマルチモーダルベースラインを解析する。アノテーションプロセスはまた、アノテーションが動画を誤解を招くものとして見ている理由にも焦点を当てており、アノテーションの背景と動画の内容の相互作用をよりよく理解することができる。
論文参考訳（メタデータ） (2023-10-20T23:47:01Z)
InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。 InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文参考訳（メタデータ） (2023-07-13T17:58:32Z)
Combating Online Misinformation Videos: Characterization, Detection, and Future Directions [13.960032991158402]
ビデオベースの誤報は、オンライン情報エコシステムの健全性に新たな脅威をもたらす。まず、信号、意味、意図を含む3つのレベルから誤情報映像を分析し、特徴付ける。代表的なデータセットや有用なツールを含む既存のリソースを紹介します。
論文参考訳（メタデータ） (2023-02-07T04:03:55Z)
Misinformation Detection on YouTube Using Video Captions [6.503828590815483]
本研究では,最新のNLP技術を用いて映像キャプション(字幕)から特徴を抽出する手法を提案する。提案手法を評価するために,動画を誤情報か否かを分類するために,公開アクセス可能なラベル付きデータセットを用いた。
論文参考訳（メタデータ） (2021-07-02T10:02:36Z)
Spoken Moments: Learning Joint Audio-Visual Representations from Video Descriptions [75.77044856100349]
我々は、異なるイベントの広い範囲を描写するユニークな短いビデオに起因する500k話されたキャプションのSpoken Momentsデータセットを提示します。 AMMアプローチは一貫して結果を改善し、Spoken Momentsデータセットで訓練されたモデルは、他のビデオキャプションデータセットで訓練されたモデルよりも汎用性が高いことを示しています。
論文参考訳（メタデータ） (2021-05-10T16:30:46Z)
QuerYD: A video dataset with high-quality text and audio narrations [85.6468286746623]
ビデオの検索とイベントのローカライゼーションのための大規模データセットQuerYDを紹介する。データセットのユニークな特徴は、ビデオ毎に2つのオーディオトラック(オリジナルオーディオと高品質な音声記述)が利用可能であることです。 YouDescribeは、既存のYouTubeビデオに音声ナレーションを付加することで視覚障害者を支援するボランティアプロジェクトだ。
論文参考訳（メタデータ） (2020-11-22T17:33:44Z)
VIOLIN: A Large-Scale Dataset for Video-and-Language Inference [103.7457132841367]
ビデオとテキストのマルチモーダル理解のための新しいタスク, Video-and-Language Inferenceを導入する。サブタイトルを前提としたビデオクリップと、そのビデオコンテンツに基づいて自然言語仮説とをペアリングすると、モデルは、その仮説が所定のビデオクリップに関連付けられているか、矛盾しているかを推測する必要がある。このタスクには、Violin(VIdeO-and-Language Inference)という名の新しい大規模データセットが導入された。
論文参考訳（メタデータ） (2020-03-25T20:39:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。