論文の概要: Multimodal Short Video Rumor Detection System Based on Contrastive
Learning
- arxiv url: http://arxiv.org/abs/2304.08401v1
- Date: Mon, 17 Apr 2023 16:07:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-18 14:22:36.997385
- Title: Multimodal Short Video Rumor Detection System Based on Contrastive
Learning
- Title(参考訳): コントラスト学習に基づくマルチモーダルショートビデオラグ検出システム
- Authors: Yuxing Yang, Junhao Zhao, Siyi Wang, Xiangyu Min, Pengchao Wang, and
Haizhou Wang
- Abstract要約: 中国のショートビデオプラットフォームは、フェイクニュースの新たな育種地になりつつある。
短いビデオの噂の拡散を緩和するために,我々はマルチモーダルな特徴融合を構築して短いビデオの噂を検出することに決めた。
我々の研究プロセスは、常に実践的なニーズに向けられており、関連する知識は、多くの実践シナリオにおいて重要な役割を果たすだろう。
- 参考スコア(独自算出の注目度): 3.226908411020375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With short video platforms becoming one of the important channels for news
sharing, major short video platforms in China have gradually become new
breeding grounds for fake news. However, it is not easy to distinguish short
video rumors due to the great amount of information and features contained in
short videos, as well as the serious homogenization and similarity of features
among videos. In order to mitigate the spread of short video rumors, our group
decides to detect short video rumors by constructing multimodal feature fusion
and introducing external knowledge after considering the advantages and
disadvantages of each algorithm. The ideas of detection are as follows: (1)
dataset creation: to build a short video dataset with multiple features; (2)
multimodal rumor detection model: firstly, we use TSN (Temporal Segment
Networks) video coding model to extract video features; then, we use OCR
(Optical Character Recognition) and ASR (Automatic Character Recognition) to
extract video features. Recognition) and ASR (Automatic Speech Recognition)
fusion to extract text, and then use the BERT model to fuse text features with
video features (3) Finally, use contrast learning to achieve distinction: first
crawl external knowledge, then use the vector database to achieve the
introduction of external knowledge and the final structure of the
classification output. Our research process is always oriented to practical
needs, and the related knowledge results will play an important role in many
practical scenarios such as short video rumor identification and social opinion
control.
- Abstract(参考訳): 短いビデオプラットフォームがニュース共有の重要なチャンネルの1つとなり、中国の主要ショートビデオプラットフォームは次第にフェイクニュースの新たな育種地となっている。
しかし,ショートビデオに含まれる情報や特徴の多さや,ビデオ間の特徴の真剣な均質化や類似性から,短いビデオの噂を区別するのは容易ではない。
短いビデオ噂の拡散を緩和するため,我々は,マルチモーダル特徴融合の構築と,各アルゴリズムの長所と短所を考慮した外部知識の導入により,短いビデオ噂の検出を決定した。
検出の考え方は,(1)データセットの作成:複数の特徴を持つ短いビデオデータセットを構築すること,(2)マルチモーダルな噂検出モデル:まず,ビデオ特徴を抽出するためにTSN (Temporal Segment Networks) ビデオ符号化モデルを使用し,次に,OCR (Optical Character Recognition) とASR (Automatic Character Recognition) を用いて映像特徴を抽出する。
認識)とASR(自動音声認識)が融合してテキストを抽出し,BERTモデルを用いてテキスト特徴とビデオ特徴を融合する。(3) 最後に,コントラスト学習を用いて,まず外部知識をクロールし,ベクトルデータベースを用いて外部知識の導入と分類出力の最終構造を実現する。
我々の研究プロセスは、常に実践的なニーズに向けられており、関連する知識は、短いビデオ噂の識別や社会的意見制御など、多くの実践シナリオにおいて重要な役割を果たす。
関連論文リスト
- VMID: A Multimodal Fusion LLM Framework for Detecting and Identifying Misinformation of Short Videos [14.551693267228345]
本稿では,マルチモーダル情報に基づく新しいフェイクニュース検出手法を提案する。
提案フレームワークは,ビデオにマルチモーダル機能を組み込むことで,偽ニュース検出の精度と信頼性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-11-15T08:20:26Z) - Video Summarization Techniques: A Comprehensive Review [1.6381055567716192]
本稿では,抽象的戦略と抽出的戦略の両方を強調し,映像要約のための様々なアプローチと手法について考察する。
抽出要約のプロセスは、ソースビデオからキーフレームやセグメントを識別し、ショット境界認識やクラスタリングなどの手法を利用する。
一方、抽象的な要約は、深層ニューラルネットワークや自然言語処理、強化学習、注意機構、生成的敵ネットワーク、マルチモーダル学習といった機械学習モデルを用いて、ビデオから不可欠なコンテンツを取得することによって、新たなコンテンツを生成する。
論文 参考訳(メタデータ) (2024-10-06T11:17:54Z) - Language as the Medium: Multimodal Video Classification through text
only [3.744589644319257]
マルチモーダル映像情報をキャプチャする詳細なテキスト記述を生成するためのモデルに依存しない新しい手法を提案する。
本手法は, GPT-3.5 や Llama2 といった大規模言語モデルによって学習された広範な知識を活用する。
UCF-101 や Kinetics などの一般的な行動認識ベンチマークによる評価は,これらの文脈に富んだ記述をビデオ理解タスクでうまく利用できることを示す。
論文 参考訳(メタデータ) (2023-09-19T17:32:21Z) - Causal Video Summarizer for Video Exploration [74.27487067877047]
Causal Video Summarizer (CVS) はビデオとクエリ間の対話的な情報をキャプチャするために提案されている。
既存のマルチモーダル映像要約データセットの評価から,提案手法が有効であることを示す実験結果が得られた。
論文 参考訳(メタデータ) (2023-07-04T22:52:16Z) - Bidirectional Cross-Modal Knowledge Exploration for Video Recognition
with Pre-trained Vision-Language Models [149.1331903899298]
本稿では,双方向の知識を探索するクロスモーダルブリッジを用いた,BIKEと呼ばれる新しいフレームワークを提案する。
本研究では,テキスト・トゥ・ビデオの専門知識を用いて時間的サリエンシをパラメータフリーでキャプチャする時間的概念スポッティング機構を提案する。
我々の最良のモデルは、リリースしたCLIPモデルを使用して、Kinetics-400の挑戦に対して、最先端の精度88.6%を達成する。
論文 参考訳(メタデータ) (2022-12-31T11:36:53Z) - Collaborative Reasoning on Multi-Modal Semantic Graphs for
Video-Grounded Dialogue Generation [53.87485260058957]
本研究では,対話コンテキストと関連ビデオに基づいて応答を生成するビデオグラウンド・ダイアログ生成について検討する。
本課題の主な課題は,(1)事前学習言語モデル(PLM)に映像データを統合することの難しさである。
異なるモーダルの推論を協調的に行うマルチエージェント強化学習法を提案する。
論文 参考訳(メタデータ) (2022-10-22T14:45:29Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z) - You Need to Read Again: Multi-granularity Perception Network for Moment
Retrieval in Videos [19.711703590063976]
本稿では,多粒度レベルでモダリティ内およびモダリティ間情報を知覚する新しい多粒度知覚ネットワーク(MGPN)を提案する。
具体的には、モーメント検索を多選択読解タスクとして定式化し、人間の読解戦略をフレームワークに統合する。
論文 参考訳(メタデータ) (2022-05-25T16:15:46Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z) - Distilling Audio-Visual Knowledge by Compositional Contrastive Learning [51.20935362463473]
我々は、クロスモーダルな意味のギャップを埋める構成埋め込みを学びます。
3つのビデオデータセットに新しい総合的マルチモーダル蒸留ベンチマークを確立した。
論文 参考訳(メタデータ) (2021-04-22T09:31:20Z) - A Comprehensive Study of Deep Video Action Recognition [35.7068977497202]
ビデオ動作認識は,映像理解における代表的なタスクの一つである。
ビデオ行動認識のためのディープラーニングに関する200以上の既存論文を包括的に調査する。
論文 参考訳(メタデータ) (2020-12-11T18:54:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。