論文の概要: COVID-VTS: Fact Extraction and Verification on Short Video Platforms
- arxiv url: http://arxiv.org/abs/2302.07919v1
- Date: Wed, 15 Feb 2023 19:38:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-17 15:55:35.005639
- Title: COVID-VTS: Fact Extraction and Verification on Short Video Platforms
- Title(参考訳): COVID-VTS:短いビデオプラットフォーム上でのファクト抽出と検証
- Authors: Fuxiao Liu, Yaser Yacoob, Abhinav Shrivastava
- Abstract要約: 短時間のビデオを含むマルチモーダル情報をファクトチェックするための新しいベンチマークであるCOVID-VTSを導入する。
TwtrDetectiveは、異なるモードでトークンレベルの悪意のある改ざんを検出するために、クロスメディア整合性チェックを組み込んだ効果的なモデルである。
- 参考スコア(独自算出の注目度): 32.59864792205225
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a new benchmark, COVID-VTS, for fact-checking multi-modal
information involving short-duration videos with COVID19- focused information
from both the real world and machine generation. We propose, TwtrDetective, an
effective model incorporating cross-media consistency checking to detect
token-level malicious tampering in different modalities, and generate
explanations. Due to the scarcity of training data, we also develop an
efficient and scalable approach to automatically generate misleading video
posts by event manipulation or adversarial matching. We investigate several
state-of-the-art models and demonstrate the superiority of TwtrDetective.
- Abstract(参考訳): 実世界と機械生成の両方から、COVID19に焦点を当てた短距離ビデオを含むマルチモーダル情報をファクトチェックするための、新しいベンチマークであるCOVID-VTSを導入する。
TwtrDetectiveは,異なるモードでトークンレベルの悪意のある改ざんを検知し,説明を生成するために,クロスメディア整合性チェックを組み込んだ効果的なモデルである。
トレーニングデータの不足のため,イベント操作や敵とのマッチングによって,誤解を招くビデオ投稿を自動的に生成する,効率的かつスケーラブルなアプローチも開発しています。
いくつかの最先端モデルを調査し、TwtrDetectiveの優位性を実証する。
関連論文リスト
- VMID: A Multimodal Fusion LLM Framework for Detecting and Identifying Misinformation of Short Videos [14.551693267228345]
本稿では,マルチモーダル情報に基づく新しいフェイクニュース検出手法を提案する。
提案フレームワークは,ビデオにマルチモーダル機能を組み込むことで,偽ニュース検出の精度と信頼性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-11-15T08:20:26Z) - VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs [64.60035916955837]
VANE-Benchはビデオの異常や矛盾を検出するためのビデオLMMの熟練度を評価するために設計されたベンチマークである。
我々のデータセットは、既存の最先端のテキスト・ビデオ生成モデルを用いて合成された一連のビデオから構成される。
我々は、このベンチマークタスクにおいて、オープンソースとクローズドソースの両方で既存の9つのビデオLMMを評価し、ほとんどのモデルが微妙な異常を効果的に識別するのに困難に直面することを発見した。
論文 参考訳(メタデータ) (2024-06-14T17:59:01Z) - Distilling Aggregated Knowledge for Weakly-Supervised Video Anomaly Detection [11.250490586786878]
ビデオ異常検出は、監視ビデオにおける異常事象を識別できる自動モデルを開発することを目的としている。
集約表現から比較的単純なモデルに知識を蒸留することで,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2024-06-05T00:44:42Z) - AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving [68.73885845181242]
本稿では,問題を自動的に識別し,データを効率よくキュレートし,自動ラベル付けによりモデルを改善する自動データエンジン(AIDE)を提案する。
さらに,AVデータセットのオープンワールド検出のためのベンチマークを構築し,様々な学習パラダイムを包括的に評価し,提案手法の優れた性能を低コストで実証する。
論文 参考訳(メタデータ) (2024-03-26T04:27:56Z) - A Lightweight Video Anomaly Detection Model with Weak Supervision and Adaptive Instance Selection [14.089888316857426]
本稿では,弱教師付きビデオ異常検出に焦点をあてる。
我々は,軽量なビデオ異常検出モデルを開発した。
我々のモデルは、最先端の手法と比較して、AUCのスコアに匹敵するか、さらに優れていることを示す。
論文 参考訳(メタデータ) (2023-10-09T01:23:08Z) - Unsupervised Video Anomaly Detection with Diffusion Models Conditioned
on Compact Motion Representations [17.816344808780965]
教師なしビデオ異常検出(VAD)問題とは、ビデオ内の各フレームをラベルにアクセスすることなく正常または異常に分類することである。
提案手法は条件付き拡散モデルを用いて,事前学習したネットワークから入力データを抽出する。
提案手法は,データ駆動しきい値を用いて,異常事象の指標として高い再構成誤差を考慮している。
論文 参考訳(メタデータ) (2023-07-04T07:36:48Z) - Dissecting Multimodality in VideoQA Transformer Models by Impairing Modality Fusion [54.33764537135906]
VideoQA Transformerモデルは標準ベンチマークで競合性能を示す。
これらのモデルはビデオとテキストからリッチなマルチモーダル構造とダイナミックスを一緒に捉えていますか?
彼らはバイアスと刺激的な特徴を利用して高いスコアを達成していますか?
論文 参考訳(メタデータ) (2023-06-15T06:45:46Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - Weakly Supervised Video Salient Object Detection [79.51227350937721]
本稿では,relabeled relabeled "fixation guided scribble annotations" に基づく最初の弱教師付きビデオサリエント物体検出モデルを提案する。
効果的なマルチモーダル学習と長期時間文脈モデリングを実現するために,「アプレンス・モーション・フュージョン・モジュール」と双方向のConvLSTMベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-06T09:48:38Z) - Depth Guided Adaptive Meta-Fusion Network for Few-shot Video Recognition [86.31412529187243]
わずかにラベル付きサンプルで新しいアクションを学習することを目的としたビデオ認識はほとんどない。
本稿では,AMeFu-Netと呼ばれる映像認識のための深度誘導型適応メタフュージョンネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T03:06:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。