Fugu-MT 論文翻訳(概要): Official-NV: An LLM-Generated News Video Dataset for Multimodal Fake News Detection

論文の概要: Official-NV: An LLM-Generated News Video Dataset for Multimodal Fake News Detection

arxiv url: http://arxiv.org/abs/2407.19493v3
Date: Fri, 27 Dec 2024 10:34:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-30 21:44:04.78838
Title: Official-NV: An LLM-Generated News Video Dataset for Multimodal Fake News Detection
Title（参考訳）: 公式NV:マルチモーダルフェイクニュース検出のためのLLM生成ニューズビデオデータセット
Authors: Yihao Wang, Lizhi Chen, Zhong Qian, Peifeng Li,
Abstract要約: マルチモーダルフェイクニュース検知が最近注目を集めています公式なニュースビデオを含むOffic-NVというデータセットを構築した。また,マルチモーダル特徴量からキー情報をキャプチャするOFNVDと呼ばれる新しいベースラインモデルを提案する。
参考スコア（独自算出の注目度）: 9.48705939124715
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: News media, especially video news media, have penetrated into every aspect of daily life, which also brings the risk of fake news. Therefore, multimodal fake news detection has recently garnered increased attention. However, the existing datasets are comprised of user-uploaded videos and contain an excess amounts of superfluous data, which introduces noise into the model training process. To address this issue, we construct a dataset named Official-NV, comprising officially published news videos. The crawl officially published videos are augmented through the use of LLMs-based generation and manual verification, thereby expanding the dataset. We also propose a new baseline model called OFNVD, which captures key information from multimodal features through a GLU attention mechanism and performs feature enhancement and modal aggregation via a cross-modal Transformer. Benchmarking the dataset and baselines demonstrates the effectiveness of our model in multimodal news detection.
Abstract（参考訳）: ニュースメディア、特にビデオニュースメディアは、日常のあらゆる側面に浸透しており、フェイクニュースのリスクも生じている。そのため、最近、マルチモーダルフェイクニュース検出が注目を集めている。しかし、既存のデータセットはユーザのアップロードしたビデオで構成されており、過剰な過剰なデータを含んでいるため、モデルトレーニングプロセスにノイズがもたらされる。この問題に対処するため、オフィシャルNVという名前のデータセットを構築し、公式なニュースビデオを含む。クロールが公式に公開されたビデオは、LLMベースの生成と手動検証を使用して拡張され、データセットが拡張される。また,GLUアテンション機構を用いて,マルチモーダル特徴からキー情報をキャプチャし,クロスモーダルトランスフォーマによる特徴強調とモーダルアグリゲーションを行う,OFNVDと呼ばれる新しいベースラインモデルを提案する。データセットとベースラインのベンチマークは、マルチモーダルニュース検出における我々のモデルの有効性を示す。

関連論文リスト

Multimodal Fake News Detection: MFND Dataset and Shallow-Deep Multitask Learning [22.494473679788396]
マルチモーダルニュースには豊富な情報が含まれており、ディープフェイク・モデリング・アタックの影響を受けやすい。最新の画像とテキスト生成手法に対抗するために,新しいマルチモーダルフェイクニュース検出データセット(MFND)を提案する。 MFNDには11の操作されたタイプがあり、高度に認証された偽ニュースを検出し、ローカライズするように設計されている。
論文参考訳（メタデータ） (2025-05-11T00:26:13Z)
Exploring Modality Disruption in Multimodal Fake News Detection [16.607714608483164]
本稿では,モダリティ破壊問題に対処するため,マルチモーダルな偽ニュース検出フレームワークFND-MoEを提案する。 FND-MoEは、それぞれのデータセットで3.45%と3.71%の精度向上により、最先端の手法を著しく上回っている。
論文参考訳（メタデータ） (2025-04-12T09:39:29Z)
FMNV: A Dataset of Media-Published News Videos for Fake News Detection [10.36393083923778]
FMNVは,メディア機関が公開するニュースビデオのみからなる新しいデータセットである。我々は,メディア公開ニュースビデオを操作することで,コンテンツを自動生成するために,Large Language Models (LLMs) を採用している。ビデオ特徴抽出のためのCLIPとFaster R-CNNを統合したベースラインモデルFMNVDを提案する。
論文参考訳（メタデータ） (2025-04-10T12:16:32Z)
Seeking and Updating with Live Visual Knowledge [75.25025869244837]
107,143のサンプルと12のカテゴリデータを備えた、第一種データセットであるLiveVQAを紹介する。 LiveVQAは、モデルが知識境界を越えて最新の視覚情報をどう扱うかを評価することができる。最新の17種類のMLLMの総合的なベンチマークでは、知識の遮断を超えてコンテンツに顕著なパフォーマンスギャップが示される。
論文参考訳（メタデータ） (2025-04-07T17:39:31Z)
VMID: A Multimodal Fusion LLM Framework for Detecting and Identifying Misinformation of Short Videos [14.551693267228345]
本稿では,マルチモーダル情報に基づく新しいフェイクニュース検出手法を提案する。提案フレームワークは,ビデオにマルチモーダル機能を組み込むことで,偽ニュース検出の精度と信頼性を大幅に向上させる。
論文参考訳（メタデータ） (2024-11-15T08:20:26Z)
Video Instruction Tuning With Synthetic Data [84.64519990333406]
ビデオ命令追従のための高品質な合成データセット、すなわちLLaVA-Video-178Kを作成する。このデータセットには、詳細なキャプション、オープンエンド質問回答(QA)、複数選択QAといった重要なタスクが含まれている。このデータセットをトレーニングすることにより、既存の視覚的インストラクションチューニングデータと組み合わせて、新しいビデオLMMであるLLaVA-Videoを導入する。
論文参考訳（メタデータ） (2024-10-03T17:36:49Z)
VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs [64.60035916955837]
VANE-Benchはビデオの異常や矛盾を検出するためのビデオLMMの熟練度を評価するために設計されたベンチマークである。我々のデータセットは、既存の最先端のテキスト・ビデオ生成モデルを用いて合成された一連のビデオから構成される。我々は、このベンチマークタスクにおいて、オープンソースとクローズドソースの両方で既存の9つのビデオLMMを評価し、ほとんどのモデルが微妙な異常を効果的に識別するのに困難に直面することを発見した。
論文参考訳（メタデータ） (2024-06-14T17:59:01Z)
Multi-modal News Understanding with Professionally Labelled Videos (ReutersViLNews) [25.78619140103048]
我々はReuters ViLNewsデータセットと呼ばれるReuters News Agencyが収集した社内データセットを大規模に分析した。このデータセットは、長文ニュースに重点を置いて、ハイレベルなビデオ言語理解に焦点を当てている。その結果,ニュース指向ビデオは現在のビデオ言語理解アルゴリズムにとって大きな課題であることが示唆された。
論文参考訳（メタデータ） (2024-01-23T00:42:04Z)
Not all Fake News is Written: A Dataset and Analysis of Misleading Video Headlines [6.939987423356328]
本稿では、ビデオからなるデータセットと、その見出しがビデオの内容を表すものであるとアノテーションが信じているか否かを示す。このデータセットを収集、注釈付けした後、誤解を招く見出しを検出するためのマルチモーダルベースラインを解析する。アノテーションプロセスはまた、アノテーションが動画を誤解を招くものとして見ている理由にも焦点を当てており、アノテーションの背景と動画の内容の相互作用をよりよく理解することができる。
論文参考訳（メタデータ） (2023-10-20T23:47:01Z)
AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting Multiple Experts for Video Deepfake Detection [53.448283629898214]
近年の超現実的なディープフェイクビデオの普及は、オーディオと視覚の偽造の脅威に注意を向けている。 AI生成のフェイクビデオの検出に関するこれまでのほとんどの研究は、視覚的モダリティまたはオーディオ的モダリティのみを使用していた。音響操作と視覚操作の両方を考慮したAVTENet(Audio-Visual Transformer-based Ensemble Network)フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-19T19:01:26Z)
MultiVENT: Multilingual Videos of Events with Aligned Natural Text [29.266266741468055]
MultiVENTは、5つのターゲット言語にまたがるテキストドキュメントに基づくマルチリンガルなイベント中心のビデオのデータセットである。オンラインニュースビデオの状況と、それらをどのように活用して、堅牢で事実的に正確なモデルを構築するかを分析する。
論文参考訳（メタデータ） (2023-07-06T17:29:34Z)
Unsupervised Domain-agnostic Fake News Detection using Multi-modal Weak Signals [19.22829945777267]
本研究は,4つのモダリティで利用可能な知識をニュースレコードに埋め込んだ,教師なしフェイクニュース検出のための効果的なフレームワークを提案する。また,既存のニュースデータセットの潜伏バイアスを最小限に抑えたニュースデータセット構築手法を提案する。 LUND-COVIDを使って提案した教師なしフレームワークをトレーニングし、大規模データセットの可能性を活用した。
論文参考訳（メタデータ） (2023-05-18T23:49:31Z)
Multiverse: Multilingual Evidence for Fake News Detection [71.51905606492376]
Multiverseは、偽ニュースの検出に使用できる多言語エビデンスに基づく新機能である。偽ニュース検出機能としての言語間証拠の使用仮説を確認した。
論文参考訳（メタデータ） (2022-11-25T18:24:17Z)
User Preference-aware Fake News Detection [61.86175081368782]
既存の偽ニュース検出アルゴリズムは、詐欺信号のニュースコンテンツをマイニングすることに焦点を当てている。本稿では,共同コンテンツとグラフモデリングにより,ユーザの好みから様々な信号を同時にキャプチャする新しいフレームワークUPFDを提案する。
論文参考訳（メタデータ） (2021-04-25T21:19:24Z)
MDMMT: Multidomain Multimodal Transformer for Video Retrieval [63.872634680339644]
MSRVTTおよびLSMDCベンチマークのテキストからビデオ検索タスクに新しい最新技術を紹介します。異なるデータセットでのトレーニングは、互いにテスト結果を改善することができることを示す。
論文参考訳（メタデータ） (2021-03-19T09:16:39Z)
VMSMO: Learning to Generate Multimodal Summary for Video-based News Articles [63.32111010686954]
マルチモーダル出力(VMSMO)を用いたビデオベースマルチモーダル要約の課題を提案する。このタスクの主な課題は、ビデオの時間的依存性と記事の意味を共同でモデル化することである。本稿では,デュアルインタラクションモジュールとマルチモーダルジェネレータからなるDual-Interaction-based Multimodal Summarizer (DIMS)を提案する。
論文参考訳（メタデータ） (2020-10-12T02:19:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。