論文の概要: Detecting YouTube Scam Videos via Multimodal Signals and Policy Reasoning
- arxiv url: http://arxiv.org/abs/2509.23418v1
- Date: Sat, 27 Sep 2025 17:24:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 14:35:10.712565
- Title: Detecting YouTube Scam Videos via Multimodal Signals and Policy Reasoning
- Title(参考訳): マルチモーダル信号とポリシー推論によるYouTubeの詐欺映像の検出
- Authors: Ummay Kulsum, Aafaq Sabir, Abhinaya S. B., Anupam Das,
- Abstract要約: 本研究は,YouTubeスカム検出のためのマルチモーダル手法に関する最初の体系的な研究である。
我々のデータセットは、確立された詐欺カテゴリを集約し、フル長のビデオコンテンツとポリシーに基づく推論アノテーションでそれらを強化します。
本フレームワークは,コンテンツポリシーに根ざした解釈可能な推論を生成し,透過性を向上し,自動モデレーションにおける潜在的な応用を支援する。
- 参考スコア(独自算出の注目度): 7.991370731695462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: YouTube has emerged as a dominant platform for both information dissemination and entertainment. However, its vast accessibility has also made it a target for scammers, who frequently upload deceptive or malicious content. Prior research has documented a range of scam types, and detection approaches rely primarily on textual or statistical metadata. Although effective to some extent, these signals are easy to evade and potentially overlook other modalities, such as visual cues. In this study, we present the first systematic investigation of multimodal approaches for YouTube scam detection. Our dataset consolidates established scam categories and augments them with full length video content and policy grounded reasoning annotations. Our experimental evaluation demonstrates that a text-only model using video titles and descriptions (fine-tuned BERT) achieves moderate effectiveness (76.61% F1), with modest improvements when incorporating audio transcripts (77.98% F1). In contrast, visual analysis using a fine-tuned LLaVA-Video model yields stronger results (79.61% F1). Finally, a multimodal framework that integrates titles, descriptions, and video frames achieves the highest performance (80.53% F1). Beyond improving detection accuracy, our multimodal framework produces interpretable reasoning grounded in YouTube content policies, thereby enhancing transparency and supporting potential applications in automated moderation. Moreover, we validate our approach on in-the-wild YouTube data by analyzing 6,374 videos, thereby contributing a valuable resource for future research on scam detection.
- Abstract(参考訳): YouTubeは情報発信とエンターテイメントの両方のための支配的なプラットフォームとして登場した。
しかし、その膨大なアクセシビリティは、詐欺や悪意のあるコンテンツを頻繁にアップロードする詐欺師の標的にもなった。
以前の研究では、様々な詐欺のタイプが記録されており、検出アプローチは主にテキストや統計的メタデータに依存している。
ある程度効果はあるが、これらの信号は容易に回避でき、視覚的手がかりのような他のモダリティを見落としてしまう可能性がある。
本研究では,YouTube 詐欺検出のためのマルチモーダル手法について,初めて体系的な研究を行った。
我々のデータセットは、確立された詐欺カテゴリを集約し、フル長のビデオコンテンツとポリシーに基づく推論アノテーションでそれらを強化します。
実験により,ビデオタイトルと記述(微調整BERT)を用いたテキストのみのモデルが適度な有効性(76.61% F1)を達成でき,音声書き起こし(77.98% F1)には適度な改善が得られた。
対照的に、微調整のLLaVA-Videoモデルを用いた視覚分析では、より強い結果(79.61% F1)が得られる。
最後に、タイトル、記述、ビデオフレームを統合するマルチモーダルフレームワークは、最高パフォーマンス(80.53% F1)を達成する。
検出精度の向上に加えて、YouTubeコンテンツポリシーに根ざした解釈可能な推論を生成し、透過性を向上し、自動モデレーションにおける潜在的なアプリケーションをサポートする。
さらに,6,374本の動画を分析し,現在進行中のYouTubeデータに対するアプローチを検証する。
関連論文リスト
- Multimodal Learning for Fake News Detection in Short Videos Using Linguistically Verified Data and Heterogeneous Modality Fusion [5.850574227112314]
現在の手法は、短いビデオコンテンツのダイナミックでマルチモーダルな性質に苦しむことが多い。
本稿では,ビデオ,音声,テキストデータを統合して,短いビデオコンテンツの信頼性を評価する新しいフレームワークであるHFNを提案する。
論文 参考訳(メタデータ) (2025-09-19T04:24:57Z) - ARC-Hunyuan-Video-7B: Structured Video Comprehension of Real-World Shorts [56.75723197779384]
ARC-Hunyuan-Videoは、構造化理解のために視覚、音声、テキストの信号をエンドツーエンドに処理するマルチモーダルモデルである。
本モデルでは,複数粒度のタイムスタンプ付きビデオキャプションと要約,オープンなビデオ質問応答,時間的ビデオグラウンド,ビデオ推論が可能である。
論文 参考訳(メタデータ) (2025-07-28T15:52:36Z) - Enhanced Multimodal Hate Video Detection via Channel-wise and Modality-wise Fusion [7.728348842555291]
TikTokやYouTubeなどのプラットフォーム上でのビデオコンテンツが急速に普及し、情報発信が変化した。
ヘイトスピーチと戦うための大きな努力にもかかわらず、これらのビデオの検出は、しばしば暗黙的な性質のために難しいままである。
本稿では,Channel-wise and Modality-wise Fusion Mechanismを用いたマルチモーダルヘイトビデオ検出モデルCMFusionを提案する。
論文 参考訳(メタデータ) (2025-05-17T15:24:48Z) - BOLT: Boost Large Vision-Language Model Without Training for Long-form Video Understanding [51.49345400300556]
大規模ビデオ言語モデル (VLM) は様々なビデオ理解タスクにおいて有望な進歩を示した。
均一なフレームサンプリングのような伝統的なアプローチは、必然的に無関係なコンテンツにリソースを割り当てる。
本稿では,フレーム選択戦略の総合的研究を通じて,付加的なトレーニングを伴わずに大規模VLMをブーストする方法であるBOLTを紹介する。
論文 参考訳(メタデータ) (2025-03-27T13:18:40Z) - Sparrow: Data-Efficient Video-LLM with Text-to-Image Augmentation [57.34255010956452]
この研究は、合成データによるスケーリングを再考し、データ中心の観点からビデオLLMの開発に焦点を当てる。
本研究では,純粋なテキスト命令データからビデオライクなサンプルを合成するSparrowというデータ拡張手法を提案する。
提案手法は,より多くのサンプルを用いてトレーニングしたベースラインに匹敵する,あるいは優れた性能を実現する。
論文 参考訳(メタデータ) (2024-11-29T18:59:54Z) - AVTENet: A Human-Cognition-Inspired Audio-Visual Transformer-Based Ensemble Network for Video Deepfake Detection [49.81915942821647]
本研究では、ディープフェイクビデオを検出するために、オーディオ・ヴィジュアル・トランスフォーマー・ベースのアンサンブルネットワーク(AVTENet)を導入する。
評価には、最近リリースされたマルチモーダルオーディオビデオFakeAVCelebデータセットを使用する。
AVTENetとその変種およびいくつかの既存手法をFakeAVCelebデータセットの複数のテストセット上で評価する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z) - Causal Video Summarizer for Video Exploration [74.27487067877047]
Causal Video Summarizer (CVS) はビデオとクエリ間の対話的な情報をキャプチャするために提案されている。
既存のマルチモーダル映像要約データセットの評価から,提案手法が有効であることを示す実験結果が得られた。
論文 参考訳(メタデータ) (2023-07-04T22:52:16Z) - Modality-Balanced Embedding for Video Retrieval [21.81705847039759]
我々はビデオエンコーダがほぼ完全にテキストマッチングに依存しているモダリティバイアス現象を同定する。
MBVR(Modality Balanced Video Retrievalの略)とMBVR(Modality Balanced Video Retrievalの略)の2つの主要コンポーネントを提案する。
本手法は,モダリティバイアス問題の解法において有効かつ効果的であることを示す。
論文 参考訳(メタデータ) (2022-04-18T06:29:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。