論文の概要: FLAASH: Flow-Attention Adaptive Semantic Hierarchical Fusion for Multi-Modal Tobacco Content Analysis
- arxiv url: http://arxiv.org/abs/2410.19896v1
- Date: Fri, 25 Oct 2024 17:20:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:22:53.104604
- Title: FLAASH: Flow-Attention Adaptive Semantic Hierarchical Fusion for Multi-Modal Tobacco Content Analysis
- Title(参考訳): FLAASH:マルチモーダルタバココンテンツ分析のためのフローアタッチメント適応型セマンティック階層型融合
- Authors: Naga VS Raviteja Chappa, Page Daniel Dobbs, Bhiksha Raj, Khoa Luu,
- Abstract要約: Flow-Attention Adaptive Semantic Hierarchical Fusion (FLAASH) は、タバコ関連のビデオコンテンツを包括的に分析するように設計されている。
FLAASHは、階層的な融合機構を活用することで、ショートフォームビデオにおける視覚情報とテキスト情報の統合の複雑さに対処する。
我々は,人気ソーシャルメディアプラットフォームからのタバコ関連ビデオの大規模コレクションであるMultimodal Tobacco Content Analysis dataset (MTCAD)上でFLAASHを評価した。
- 参考スコア(独自算出の注目度): 27.116551819570063
- License:
- Abstract: The proliferation of tobacco-related content on social media platforms poses significant challenges for public health monitoring and intervention. This paper introduces a novel multi-modal deep learning framework named Flow-Attention Adaptive Semantic Hierarchical Fusion (FLAASH) designed to analyze tobacco-related video content comprehensively. FLAASH addresses the complexities of integrating visual and textual information in short-form videos by leveraging a hierarchical fusion mechanism inspired by flow network theory. Our approach incorporates three key innovations, including a flow-attention mechanism that captures nuanced interactions between visual and textual modalities, an adaptive weighting scheme that balances the contribution of different hierarchical levels, and a gating mechanism that selectively emphasizes relevant features. This multi-faceted approach enables FLAASH to effectively process and analyze diverse tobacco-related content, from product showcases to usage scenarios. We evaluate FLAASH on the Multimodal Tobacco Content Analysis Dataset (MTCAD), a large-scale collection of tobacco-related videos from popular social media platforms. Our results demonstrate significant improvements over existing methods, outperforming state-of-the-art approaches in classification accuracy, F1 score, and temporal consistency. The proposed method also shows strong generalization capabilities when tested on standard video question-answering datasets, surpassing current models. This work contributes to the intersection of public health and artificial intelligence, offering an effective tool for analyzing tobacco promotion in digital media.
- Abstract(参考訳): ソーシャルメディアプラットフォームにおけるタバコ関連コンテンツの拡散は、公衆衛生の監視と介入に重大な課題をもたらす。
本稿では,タバコ関連映像コンテンツを包括的に分析するための新しい多モードディープラーニングフレームワークであるFlow-Attention Adaptive Semantic Hierarchical Fusion(FLAASH)を提案する。
FLAASHは、フローネットワーク理論にインスパイアされた階層的な融合機構を活用することで、ショートフォームビデオにおける視覚情報とテキスト情報の統合の複雑さに対処する。
提案手法には,視覚的・テキスト的モダリティ間のニュアンスな相互作用をキャプチャするフローアテンション機構,階層レベルのコントリビューションのバランスをとる適応重み付け方式,関連する特徴を選択的に強調するゲーティング機構など,3つの重要なイノベーションが組み込まれている。
この多面的アプローチにより、FLAASHは製品ショーケースから使用シナリオまで、様々なタバコ関連コンテンツを効果的に処理し、分析することができる。
我々は,人気ソーシャルメディアプラットフォームからのタバコ関連ビデオの大規模コレクションであるMultimodal Tobacco Content Analysis Dataset (MTCAD)上でFLAASHを評価した。
以上の結果から,従来の手法に比べて,分類精度,F1スコア,時間的整合性において,最先端の手法よりも優れた結果が得られた。
提案手法は, 標準ビデオ質問応答データセットを用いて, 現行モデルを超え, 高い一般化能力を示す。
この研究は公衆衛生と人工知能の交差に寄与し、デジタルメディアにおけるタバコのプロモーションを分析する効果的なツールを提供する。
関連論文リスト
- Multimodality Helps Few-Shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。
本稿では,テキストラベルと潜在的に利用可能な2次元画像モダリティを利用して,コストフリーのマルチモーダルFS-PCSセットアップを提案する。
トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダルセグ(TACC)技術を提案する。
論文 参考訳(メタデータ) (2024-10-29T19:28:41Z) - Bayesian Joint Additive Factor Models for Multiview Learning [7.254731344123118]
マルチオミクスデータが収集され、臨床結果と相関する精度医学の文脈でモチベーション応用が生じる。
本稿では,共有およびビュー固有のコンポーネントを考慮に入れた,構造化された付加的設計を伴うJAFAR(Joint Additive Factor regression model)を提案する。
免疫,メタボローム,プロテオームデータから得られた時間とラベルの発症の予測は,最先端の競合相手に対するパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2024-06-02T15:35:45Z) - Correlation-Decoupled Knowledge Distillation for Multimodal Sentiment Analysis with Incomplete Modalities [16.69453837626083]
本稿では,Multimodal Sentiment Analysis (MSA)タスクのための相関分離型知識蒸留(CorrKD)フレームワークを提案する。
本稿では, クロスサンプル相関を含む包括的知識を伝達し, 欠落した意味論を再構築するサンプルレベルのコントラスト蒸留機構を提案する。
我々は,学生ネットワークの感情決定境界を最適化するために,応答不整合蒸留方式を設計する。
論文 参考訳(メタデータ) (2024-04-25T09:35:09Z) - A Novel Energy based Model Mechanism for Multi-modal Aspect-Based
Sentiment Analysis [85.77557381023617]
マルチモーダル感情分析のための新しいフレームワークDQPSAを提案する。
PDQモジュールは、プロンプトをビジュアルクエリと言語クエリの両方として使用し、プロンプト対応の視覚情報を抽出する。
EPEモジュールはエネルギーベースモデルの観点から解析対象の境界ペアリングをモデル化する。
論文 参考訳(メタデータ) (2023-12-13T12:00:46Z) - Conditional Modeling Based Automatic Video Summarization [70.96973928590958]
ビデオ要約の目的は、全体を伝えるのに必要な重要な情報を保持しながら、自動的にビデオを短縮することである。
映像要約法は視覚的連続性や多様性などの視覚的要因に依存しており、ビデオの内容を完全に理解するには不十分である。
映像要約への新たなアプローチは、人間が地上の真実のビデオ要約を作成する方法から得られる知見に基づいて提案されている。
論文 参考訳(メタデータ) (2023-11-20T20:24:45Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Self-Attention Based Generative Adversarial Networks For Unsupervised
Video Summarization [78.2700757742992]
我々は、GAN(Generative Adversarial Network)をトレーニングして、代表要約を作成する人気手法を構築した。
本稿では,フレーム選択のための自己認識機構と,符号化と復号のためのLSTMを組み合わせたSUM-GAN-AEDモデルを提案する。
論文 参考訳(メタデータ) (2023-07-16T19:56:13Z) - MMLatch: Bottom-up Top-down Fusion for Multimodal Sentiment Analysis [84.7287684402508]
マルチモーダル融合に対する最近のディープラーニングアプローチは、ハイレベルおよびミドルレベルの潜在モダリティ表現のボトムアップ融合に依存している。
人間の知覚モデルでは、高レベルの表現が感覚入力の知覚に影響を及ぼすトップダウン融合の重要性を強調している。
本稿では,ネットワークトレーニング中のフォワードパスにおけるフィードバック機構を用いて,トップダウンのクロスモーダルインタラクションをキャプチャするニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2022-01-24T17:48:04Z) - Hierarchical Cross-Modality Semantic Correlation Learning Model for
Multimodal Summarization [4.714335699701277]
マルチモーダル出力(MSMO)によるマルチモーダル要約は、テキストコンテンツとビジュアルコンテンツの両方で要約を生成する。
従来のMSMOメソッドは、データ全体の表現を学習することで、異なるデータモダリティを区別できない方法で処理する。
マルチモーダルデータに存在するモーダル内およびモーダル間相関を学習するための階層的相互モーダル意味相関学習モデル(HCSCL)を提案する。
論文 参考訳(メタデータ) (2021-12-16T01:46:30Z) - Abstractive Sentence Summarization with Guidance of Selective Multimodal
Reference [3.505062507621494]
モーダル間の相互関係を考慮したマルチモーダル階層選択変換器(mhsf)モデルを提案する。
提案したmhsfモデルの汎用性を,事前学習+微調整および新鮮トレーニング戦略を用いて評価した。
論文 参考訳(メタデータ) (2021-08-11T09:59:34Z) - SalSum: Saliency-based Video Summarization using Generative Adversarial
Networks [6.45481313278967]
本稿では,人間の眼球運動を訓練したGANモデルに基づく新しいVSアプローチを提案する。
提案手法は,ベンチマークデータセットVSUMMにおける最先端のVSアプローチと比較して評価する。
論文 参考訳(メタデータ) (2020-11-20T14:53:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。