論文の概要: DEFEND: A Large-scale 1M Dataset and Foundation Model for Tobacco Addiction Prevention
- arxiv url: http://arxiv.org/abs/2501.13950v1
- Date: Mon, 20 Jan 2025 02:55:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-27 20:40:39.474518
- Title: DEFEND: A Large-scale 1M Dataset and Foundation Model for Tobacco Addiction Prevention
- Title(参考訳): DEFEND:タバコ添加防止のための大規模100万データセットと基礎モデル
- Authors: Naga VS Raviteja Chappa, Matthew Shepard, Connor McCurtain, Charlotte McCormick, Page Daniel Dobbs, Khoa Luu,
- Abstract要約: Tobacco-1Mは、75の製品カテゴリにまたがる階層的なラベルを持つ100万のタバコ製品イメージの包括的なデータセットである。
DEFENDはタバコ製品の理解のための新しい基礎モデルである。
- 参考スコア(独自算出の注目度): 6.522584735276245
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While tobacco advertising innovates at unprecedented speed, traditional surveillance methods remain frozen in time, especially in the context of social media. The lack of large-scale, comprehensive datasets and sophisticated monitoring systems has created a widening gap between industry advancement and public health oversight. This paper addresses this critical challenge by introducing Tobacco-1M, a comprehensive dataset of one million tobacco product images with hierarchical labels spanning 75 product categories, and DEFEND, a novel foundation model for tobacco product understanding. Our approach integrates a Feature Enhancement Module for rich multimodal representation learning, a Local-Global Visual Coherence mechanism for detailed feature discrimination, and an Enhanced Image-Text Alignment strategy for precise product characterization. Experimental results demonstrate DEFEND's superior performance, achieving 83.1% accuracy in product classification and 73.8% in visual question-answering tasks, outperforming existing methods by significant margins. Moreover, the model exhibits robust zero-shot learning capabilities with 45.6% accuracy on novel product categories. This work provides regulatory bodies and public health researchers with powerful tools for monitoring emerging tobacco products and marketing strategies, potentially revolutionizing approaches to tobacco control and public health surveillance.
- Abstract(参考訳): タバコ広告は前例のないスピードで革新するが、伝統的な監視手法は、特にソーシャルメディアの文脈において、時間内に凍結されている。
大規模で包括的なデータセットと高度な監視システムが欠如していることは、業界の発展と公衆衛生の監視の間に大きなギャップを生じさせている。
本稿では,75の製品カテゴリにまたがる階層的なラベルを持つ100万個のタバコ製品イメージの包括的データセットであるTobacco-1Mと,タバコ製品理解のための新しい基盤モデルであるDEFENDを導入することで,この課題に対処する。
提案手法では,リッチなマルチモーダル表現学習のための機能拡張モジュール,詳細な特徴識別のためのローカル・グローバル・ビジュアル・コヒーレンス・メカニズム,高精度な製品特徴付けのための拡張画像テキストアライメント・ストラテジーを統合した。
実験の結果、DefENDの優れた性能を示し、製品分類では83.1%の精度、視覚的質問応答タスクでは73.8%、既存の手法ではかなりの差で上回った。
さらに、このモデルは、新しい製品カテゴリーで45.6%の精度で、堅牢なゼロショット学習能力を示す。
この研究は、規制機関と公衆衛生研究者に、タバコ製品やマーケティング戦略を監視する強力なツールを提供し、タバコ管理と公衆衛生監視へのアプローチに革命をもたらす可能性がある。
関連論文リスト
- Toward Automated Regulatory Decision-Making: Trustworthy Medical Device Risk Classification with Multimodal Transformers and Self-Training [3.439579933384111]
Transformerベースのフレームワークは、テキスト記述と視覚情報を統合して、デバイスの規制分類を予測する。
このアプローチは90.4%の精度と97.9%のAUROCを実現し、テキストのみ(77.2%)と画像のみ(54.8%)のベースラインを大きく上回っている。
論文 参考訳(メタデータ) (2025-05-01T09:41:41Z) - Contrastive Visual Data Augmentation [119.51630737874855]
大規模なマルチモーダルモデル(LMM)は、訓練済みの知識に依存し、微妙な視覚的詳細を捉える能力に制限があるため、しばしば新しい概念を認識するのに苦労する。
本稿では,LMMの視覚的特徴と言語との整合性を改善するために,Contrastive visual Data Augmentation(CoDA)戦略を提案する。
CoDAは、認識されていない既知の概念に対して、ターゲット概念の重要な対照的なテキスト的特徴と視覚的特徴を抽出し、ターゲットとなる合成データを生成するために、マルチモーダル生成モデルを使用する。
論文 参考訳(メタデータ) (2025-02-24T23:05:31Z) - Public Health Advocacy Dataset: A Dataset of Tobacco Usage Videos from Social Media [6.9114339814002745]
Public Health Advocacy データセット (PHAD) は、TikTok や YouTube などのソーシャルメディアプラットフォームから提供されるタバコ製品に関連する5,730本のビデオの包括的なコレクションである。
このデータセットは430万フレームを含み、ユーザエンゲージメントメトリクス、ビデオ記述、検索キーワードなどの詳細なメタデータを含んでいる。
論文 参考訳(メタデータ) (2024-11-12T18:12:06Z) - FLAASH: Flow-Attention Adaptive Semantic Hierarchical Fusion for Multi-Modal Tobacco Content Analysis [27.116551819570063]
Flow-Attention Adaptive Semantic Hierarchical Fusion (FLAASH) は、タバコ関連のビデオコンテンツを包括的に分析するように設計されている。
FLAASHは、階層的な融合機構を活用することで、ショートフォームビデオにおける視覚情報とテキスト情報の統合の複雑さに対処する。
我々は,人気ソーシャルメディアプラットフォームからのタバコ関連ビデオの大規模コレクションであるMultimodal Tobacco Content Analysis dataset (MTCAD)上でFLAASHを評価した。
論文 参考訳(メタデータ) (2024-10-25T17:20:22Z) - A Simple Background Augmentation Method for Object Detection with Diffusion Model [53.32935683257045]
コンピュータビジョンでは、データの多様性の欠如がモデル性能を損なうことはよく知られている。
本稿では, 生成モデルの進歩を生かして, 単純かつ効果的なデータ拡張手法を提案する。
背景強化は、特にモデルの堅牢性と一般化能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-01T07:40:00Z) - Rare Class Prediction Model for Smart Industry in Semiconductor Manufacturing [1.3955252961896323]
本研究では, 半導体製造プロセスから収集したIn situデータに対して, 希少なクラス予測手法を開発した。
第一の目的は、ノイズとクラス不均衡の問題に対処し、クラス分離を強化するモデルを構築することである。
ROC曲線はAUCが0.95、精度が0.66、リコールが0.96である。
論文 参考訳(メタデータ) (2024-06-06T22:09:43Z) - Boosting Medical Image-based Cancer Detection via Text-guided Supervision from Reports [68.39938936308023]
本研究では, 高精度ながん検出を実現するための新しいテキスト誘導学習法を提案する。
本手法は,大規模プレトレーニングVLMによる臨床知識の活用により,一般化能力の向上が期待できる。
論文 参考訳(メタデータ) (2024-05-23T07:03:38Z) - Cannabis Seed Variant Detection using Faster R-CNN [0.0]
本稿では,現在最先端のオブジェクト検出モデルであるFaster R-CNNを用いて,大麻種子の変種検出について検討する。
タイの大麻種子データセットに,17種類の異なるクラスからなるモデルを実装した。
各種測定値のパフォーマンスを比較し,mAPスコア94.08%,F1スコア95.66%を達成して,より高速な6つのR-CNNモデルを評価する。
論文 参考訳(メタデータ) (2024-03-15T22:49:47Z) - Learnable Weight Initialization for Volumetric Medical Image Segmentation [66.3030435676252]
本稿では,学習可能な重みに基づくハイブリッド医療画像セグメンテーション手法を提案する。
我々のアプローチはどんなハイブリッドモデルにも簡単に統合でき、外部のトレーニングデータを必要としない。
多臓器・肺がんセグメンテーションタスクの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-06-15T17:55:05Z) - Drug Synergistic Combinations Predictions via Large-Scale Pre-Training
and Graph Structure Learning [82.93806087715507]
薬物併用療法は、より有効で安全性の低い疾患治療のための確立された戦略である。
ディープラーニングモデルは、シナジスティックな組み合わせを発見する効率的な方法として登場した。
我々のフレームワークは、他のディープラーニングベースの手法と比較して最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-01-14T15:07:43Z) - Product1M: Towards Weakly Supervised Instance-Level Product Retrieval
via Cross-modal Pretraining [108.86502855439774]
弱教師付きマルチモーダル・インスタンスレベルの製品検索を目的とした,より現実的な設定について検討する。
実世界のインスタンスレベルの検索において,最も大規模なマルチモーダル化粧品データセットであるProduct1Mをコントリビュートする。
ケースレベルの予測検索(CAPTURE)のためのクロスモーダル・コントラサシブ・プロダクト・トランスフォーマーという新しいモデルを提案する。
論文 参考訳(メタデータ) (2021-07-30T12:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。