論文の概要: Multimodal Short Video Rumor Detection System Based on Contrastive
Learning
- arxiv url: http://arxiv.org/abs/2304.08401v3
- Date: Wed, 17 May 2023 13:12:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-18 19:40:58.658492
- Title: Multimodal Short Video Rumor Detection System Based on Contrastive
Learning
- Title(参考訳): コントラスト学習に基づくマルチモーダルショートビデオラグ検出システム
- Authors: Yuxing Yang, Junhao Zhao, Siyi Wang, Xiangyu Min, Pengchao Wang and
Haizhou Wang
- Abstract要約: 中国のショートビデオプラットフォームは、フェイクニュースの拡散の場として徐々に肥大化してきた。
短いビデオの噂を区別することは、大量の情報と共有機能のために大きな課題となる。
本研究グループは,マルチモーダルな特徴融合と外部知識の統合を包含する方法論を提案する。
- 参考スコア(独自算出の注目度): 3.4192832062683842
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rise of short video platforms as prominent channels for news
dissemination, major platforms in China have gradually evolved into fertile
grounds for the proliferation of fake news. However, distinguishing short video
rumors poses a significant challenge due to the substantial amount of
information and shared features among videos, resulting in homogeneity. To
address the dissemination of short video rumors effectively, our research group
proposes a methodology encompassing multimodal feature fusion and the
integration of external knowledge, considering the merits and drawbacks of each
algorithm. The proposed detection approach entails the following steps: (1)
creation of a comprehensive dataset comprising multiple features extracted from
short videos; (2) development of a multimodal rumor detection model: first, we
employ the Temporal Segment Networks (TSN) video coding model to extract video
features, followed by the utilization of Optical Character Recognition (OCR)
and Automatic Speech Recognition (ASR) to extract textual features.
Subsequently, the BERT model is employed to fuse textual and video features;
(3) distinction is achieved through contrast learning: we acquire external
knowledge by crawling relevant sources and leverage a vector database to
incorporate this knowledge into the classification output. Our research process
is driven by practical considerations, and the knowledge derived from this
study will hold significant value in practical scenarios, such as short video
rumor identification and the management of social opinions.
- Abstract(参考訳): ショートビデオプラットフォームがニュース拡散の顕著なチャネルとして台頭し、中国の主要プラットフォームは次第にフェイクニュースの拡散の場へと進化してきた。
しかし、短いビデオの噂を区別することは、大量の情報とビデオ間の共有機能によって大きな課題となり、均一性をもたらす。
ショートビデオの拡散を効果的に解決するため,本研究グループは,各アルゴリズムのメリットと欠点を考慮して,マルチモーダル特徴融合と外部知識の統合を包含する手法を提案する。
提案手法は,(1)短い映像から抽出された複数の特徴を含む包括的データセットの作成,(2)マルチモーダルなうわさ検出モデルの開発,(2)ビデオ特徴抽出に時間的セグメントネットワーク(tsn)ビデオ符号化モデルを使用し,その後にocrと自動音声認識(asr)を用いてテキスト特徴を抽出する。
次に, BERTモデルを用いてテキストと映像の特徴を融合させ, (3) コントラスト学習により区別が達成される: 関係する情報源をクロールして外部知識を取得し, ベクトルデータベースを利用してその知識を分類出力に組み込む。
本研究のプロセスは実践的考察によって推進され,本研究から得られた知識は,ショートビデオのうわさの特定や社会的意見の管理など,実践的シナリオにおいて大きな価値を持つ。
関連論文リスト
- VMID: A Multimodal Fusion LLM Framework for Detecting and Identifying Misinformation of Short Videos [14.551693267228345]
本稿では,マルチモーダル情報に基づく新しいフェイクニュース検出手法を提案する。
提案フレームワークは,ビデオにマルチモーダル機能を組み込むことで,偽ニュース検出の精度と信頼性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-11-15T08:20:26Z) - Video Summarization Techniques: A Comprehensive Review [1.6381055567716192]
本稿では,抽象的戦略と抽出的戦略の両方を強調し,映像要約のための様々なアプローチと手法について考察する。
抽出要約のプロセスは、ソースビデオからキーフレームやセグメントを識別し、ショット境界認識やクラスタリングなどの手法を利用する。
一方、抽象的な要約は、深層ニューラルネットワークや自然言語処理、強化学習、注意機構、生成的敵ネットワーク、マルチモーダル学習といった機械学習モデルを用いて、ビデオから不可欠なコンテンツを取得することによって、新たなコンテンツを生成する。
論文 参考訳(メタデータ) (2024-10-06T11:17:54Z) - Language as the Medium: Multimodal Video Classification through text
only [3.744589644319257]
マルチモーダル映像情報をキャプチャする詳細なテキスト記述を生成するためのモデルに依存しない新しい手法を提案する。
本手法は, GPT-3.5 や Llama2 といった大規模言語モデルによって学習された広範な知識を活用する。
UCF-101 や Kinetics などの一般的な行動認識ベンチマークによる評価は,これらの文脈に富んだ記述をビデオ理解タスクでうまく利用できることを示す。
論文 参考訳(メタデータ) (2023-09-19T17:32:21Z) - Causal Video Summarizer for Video Exploration [74.27487067877047]
Causal Video Summarizer (CVS) はビデオとクエリ間の対話的な情報をキャプチャするために提案されている。
既存のマルチモーダル映像要約データセットの評価から,提案手法が有効であることを示す実験結果が得られた。
論文 参考訳(メタデータ) (2023-07-04T22:52:16Z) - Bidirectional Cross-Modal Knowledge Exploration for Video Recognition
with Pre-trained Vision-Language Models [149.1331903899298]
本稿では,双方向の知識を探索するクロスモーダルブリッジを用いた,BIKEと呼ばれる新しいフレームワークを提案する。
本研究では,テキスト・トゥ・ビデオの専門知識を用いて時間的サリエンシをパラメータフリーでキャプチャする時間的概念スポッティング機構を提案する。
我々の最良のモデルは、リリースしたCLIPモデルを使用して、Kinetics-400の挑戦に対して、最先端の精度88.6%を達成する。
論文 参考訳(メタデータ) (2022-12-31T11:36:53Z) - Collaborative Reasoning on Multi-Modal Semantic Graphs for
Video-Grounded Dialogue Generation [53.87485260058957]
本研究では,対話コンテキストと関連ビデオに基づいて応答を生成するビデオグラウンド・ダイアログ生成について検討する。
本課題の主な課題は,(1)事前学習言語モデル(PLM)に映像データを統合することの難しさである。
異なるモーダルの推論を協調的に行うマルチエージェント強化学習法を提案する。
論文 参考訳(メタデータ) (2022-10-22T14:45:29Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z) - You Need to Read Again: Multi-granularity Perception Network for Moment
Retrieval in Videos [19.711703590063976]
本稿では,多粒度レベルでモダリティ内およびモダリティ間情報を知覚する新しい多粒度知覚ネットワーク(MGPN)を提案する。
具体的には、モーメント検索を多選択読解タスクとして定式化し、人間の読解戦略をフレームワークに統合する。
論文 参考訳(メタデータ) (2022-05-25T16:15:46Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z) - Distilling Audio-Visual Knowledge by Compositional Contrastive Learning [51.20935362463473]
我々は、クロスモーダルな意味のギャップを埋める構成埋め込みを学びます。
3つのビデオデータセットに新しい総合的マルチモーダル蒸留ベンチマークを確立した。
論文 参考訳(メタデータ) (2021-04-22T09:31:20Z) - A Comprehensive Study of Deep Video Action Recognition [35.7068977497202]
ビデオ動作認識は,映像理解における代表的なタスクの一つである。
ビデオ行動認識のためのディープラーニングに関する200以上の既存論文を包括的に調査する。
論文 参考訳(メタデータ) (2020-12-11T18:54:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。