Fugu-MT 論文翻訳(概要): DEFEND: A Large-scale 1M Dataset and Foundation Model for Tobacco Addiction Prevention

論文の概要: DEFEND: A Large-scale 1M Dataset and Foundation Model for Tobacco Addiction Prevention

arxiv url: http://arxiv.org/abs/2501.13950v1
Date: Mon, 20 Jan 2025 02:55:46 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-27 20:40:39.474518
Title: DEFEND: A Large-scale 1M Dataset and Foundation Model for Tobacco Addiction Prevention
Title（参考訳）: DEFEND:タバコ添加防止のための大規模100万データセットと基礎モデル
Authors: Naga VS Raviteja Chappa, Matthew Shepard, Connor McCurtain, Charlotte McCormick, Page Daniel Dobbs, Khoa Luu,
Abstract要約: Tobacco-1Mは、75の製品カテゴリにまたがる階層的なラベルを持つ100万のタバコ製品イメージの包括的なデータセットである。 DEFENDはタバコ製品の理解のための新しい基礎モデルである。
参考スコア（独自算出の注目度）: 6.522584735276245
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While tobacco advertising innovates at unprecedented speed, traditional surveillance methods remain frozen in time, especially in the context of social media. The lack of large-scale, comprehensive datasets and sophisticated monitoring systems has created a widening gap between industry advancement and public health oversight. This paper addresses this critical challenge by introducing Tobacco-1M, a comprehensive dataset of one million tobacco product images with hierarchical labels spanning 75 product categories, and DEFEND, a novel foundation model for tobacco product understanding. Our approach integrates a Feature Enhancement Module for rich multimodal representation learning, a Local-Global Visual Coherence mechanism for detailed feature discrimination, and an Enhanced Image-Text Alignment strategy for precise product characterization. Experimental results demonstrate DEFEND's superior performance, achieving 83.1% accuracy in product classification and 73.8% in visual question-answering tasks, outperforming existing methods by significant margins. Moreover, the model exhibits robust zero-shot learning capabilities with 45.6% accuracy on novel product categories. This work provides regulatory bodies and public health researchers with powerful tools for monitoring emerging tobacco products and marketing strategies, potentially revolutionizing approaches to tobacco control and public health surveillance.
Abstract（参考訳）: タバコ広告は前例のないスピードで革新するが、伝統的な監視手法は、特にソーシャルメディアの文脈において、時間内に凍結されている。大規模で包括的なデータセットと高度な監視システムが欠如していることは、業界の発展と公衆衛生の監視の間に大きなギャップを生じさせている。本稿では,75の製品カテゴリにまたがる階層的なラベルを持つ100万個のタバコ製品イメージの包括的データセットであるTobacco-1Mと,タバコ製品理解のための新しい基盤モデルであるDEFENDを導入することで,この課題に対処する。提案手法では,リッチなマルチモーダル表現学習のための機能拡張モジュール,詳細な特徴識別のためのローカル・グローバル・ビジュアル・コヒーレンス・メカニズム,高精度な製品特徴付けのための拡張画像テキストアライメント・ストラテジーを統合した。実験の結果、DefENDの優れた性能を示し、製品分類では83.1%の精度、視覚的質問応答タスクでは73.8%、既存の手法ではかなりの差で上回った。さらに、このモデルは、新しい製品カテゴリーで45.6%の精度で、堅牢なゼロショット学習能力を示す。この研究は、規制機関と公衆衛生研究者に、タバコ製品やマーケティング戦略を監視する強力なツールを提供し、タバコ管理と公衆衛生監視へのアプローチに革命をもたらす可能性がある。

関連論文リスト

NICO-RAG: Multimodal Hypergraph Retrieval-Augmented Generation for Understanding the Nicotine Public Health Crisis [12.945798371353412]
Nicotine Innovation Counter-Offensive (NICO)データセットは、55のタバコやニコチン製品ブランドで、画像やテキスト記述を含む20万以上のマルチモーダルサンプルを提供する。本稿では,高コストの言語モデルを実現することなく画像特徴を検索可能な検索拡張生成(RAG)フレームワークNICO-RAGを提案する。
論文参考訳（メタデータ） (2026-03-02T16:31:07Z)
FUGC: Benchmarking Semi-Supervised Learning Methods for Cervical Segmentation [63.7829089874007]
本稿では,頚椎椎間板断裂における半教師あり学習のための最初のベンチマークであるFetal Ultrasound Grand Challenge (FUGC)を紹介する。 FUGCは、500のトレーニング画像、90の検証画像、300のテスト画像を含む890のTVSイメージのデータセットを提供する。 Dice similarity Coefficient (DSC), Hausdorff Distance (HD), and Runtime (RT), with a weighted combination of 0.4/0.4/0.2。
論文参考訳（メタデータ） (2026-01-22T01:34:39Z)
InspectionV3: Enhancing Tobacco Quality Assessment with Deep Convolutional Neural Networks for Automated Workshop Management [5.180338364876145]
InspectionV3は、自動排煙処理のための統合されたソリューションである。カスタマイズされた深層畳み込みニューラルネットワークアーキテクチャを使用する。メトリクスは97%の精度、95%の精度とリコール、96%のF1スコアとAUC、95%の特異性を示す。
論文参考訳（メタデータ） (2025-05-22T10:11:50Z)
Toward Automated Regulatory Decision-Making: Trustworthy Medical Device Risk Classification with Multimodal Transformers and Self-Training [3.439579933384111]
Transformerベースのフレームワークは、テキスト記述と視覚情報を統合して、デバイスの規制分類を予測する。このアプローチは90.4%の精度と97.9%のAUROCを実現し、テキストのみ(77.2%)と画像のみ(54.8%)のベースラインを大きく上回っている。
論文参考訳（メタデータ） (2025-05-01T09:41:41Z)
Contrastive Visual Data Augmentation [119.51630737874855]
大規模なマルチモーダルモデル(LMM)は、訓練済みの知識に依存し、微妙な視覚的詳細を捉える能力に制限があるため、しばしば新しい概念を認識するのに苦労する。本稿では,LMMの視覚的特徴と言語との整合性を改善するために,Contrastive visual Data Augmentation(CoDA)戦略を提案する。 CoDAは、認識されていない既知の概念に対して、ターゲット概念の重要な対照的なテキスト的特徴と視覚的特徴を抽出し、ターゲットとなる合成データを生成するために、マルチモーダル生成モデルを使用する。
論文参考訳（メタデータ） (2025-02-24T23:05:31Z)
Public Health Advocacy Dataset: A Dataset of Tobacco Usage Videos from Social Media [6.9114339814002745]
Public Health Advocacy データセット (PHAD) は、TikTok や YouTube などのソーシャルメディアプラットフォームから提供されるタバコ製品に関連する5,730本のビデオの包括的なコレクションである。このデータセットは430万フレームを含み、ユーザエンゲージメントメトリクス、ビデオ記述、検索キーワードなどの詳細なメタデータを含んでいる。
論文参考訳（メタデータ） (2024-11-12T18:12:06Z)
FLAASH: Flow-Attention Adaptive Semantic Hierarchical Fusion for Multi-Modal Tobacco Content Analysis [27.116551819570063]
Flow-Attention Adaptive Semantic Hierarchical Fusion (FLAASH) は、タバコ関連のビデオコンテンツを包括的に分析するように設計されている。 FLAASHは、階層的な融合機構を活用することで、ショートフォームビデオにおける視覚情報とテキスト情報の統合の複雑さに対処する。我々は,人気ソーシャルメディアプラットフォームからのタバコ関連ビデオの大規模コレクションであるMultimodal Tobacco Content Analysis dataset (MTCAD)上でFLAASHを評価した。
論文参考訳（メタデータ） (2024-10-25T17:20:22Z)
A Simple Background Augmentation Method for Object Detection with Diffusion Model [53.32935683257045]
コンピュータビジョンでは、データの多様性の欠如がモデル性能を損なうことはよく知られている。本稿では, 生成モデルの進歩を生かして, 単純かつ効果的なデータ拡張手法を提案する。背景強化は、特にモデルの堅牢性と一般化能力を大幅に改善する。
論文参考訳（メタデータ） (2024-08-01T07:40:00Z)
Rare Class Prediction Model for Smart Industry in Semiconductor Manufacturing [1.3955252961896323]
本研究では, 半導体製造プロセスから収集したIn situデータに対して, 希少なクラス予測手法を開発した。第一の目的は、ノイズとクラス不均衡の問題に対処し、クラス分離を強化するモデルを構築することである。 ROC曲線はAUCが0.95、精度が0.66、リコールが0.96である。
論文参考訳（メタデータ） (2024-06-06T22:09:43Z)
Boosting Medical Image-based Cancer Detection via Text-guided Supervision from Reports [68.39938936308023]
本研究では, 高精度ながん検出を実現するための新しいテキスト誘導学習法を提案する。本手法は,大規模プレトレーニングVLMによる臨床知識の活用により,一般化能力の向上が期待できる。
論文参考訳（メタデータ） (2024-05-23T07:03:38Z)
Cannabis Seed Variant Detection using Faster R-CNN [0.0]
本稿では,現在最先端のオブジェクト検出モデルであるFaster R-CNNを用いて,大麻種子の変種検出について検討する。タイの大麻種子データセットに,17種類の異なるクラスからなるモデルを実装した。各種測定値のパフォーマンスを比較し,mAPスコア94.08%,F1スコア95.66%を達成して,より高速な6つのR-CNNモデルを評価する。
論文参考訳（メタデータ） (2024-03-15T22:49:47Z)
Learnable Weight Initialization for Volumetric Medical Image Segmentation [66.3030435676252]
本稿では,学習可能な重みに基づくハイブリッド医療画像セグメンテーション手法を提案する。我々のアプローチはどんなハイブリッドモデルにも簡単に統合でき、外部のトレーニングデータを必要としない。多臓器・肺がんセグメンテーションタスクの実験は、我々のアプローチの有効性を実証している。
論文参考訳（メタデータ） (2023-06-15T17:55:05Z)
Drug Synergistic Combinations Predictions via Large-Scale Pre-Training and Graph Structure Learning [82.93806087715507]
薬物併用療法は、より有効で安全性の低い疾患治療のための確立された戦略である。ディープラーニングモデルは、シナジスティックな組み合わせを発見する効率的な方法として登場した。我々のフレームワークは、他のディープラーニングベースの手法と比較して最先端の結果を達成する。
論文参考訳（メタデータ） (2023-01-14T15:07:43Z)
Product1M: Towards Weakly Supervised Instance-Level Product Retrieval via Cross-modal Pretraining [108.86502855439774]
弱教師付きマルチモーダル・インスタンスレベルの製品検索を目的とした,より現実的な設定について検討する。実世界のインスタンスレベルの検索において,最も大規模なマルチモーダル化粧品データセットであるProduct1Mをコントリビュートする。ケースレベルの予測検索(CAPTURE)のためのクロスモーダル・コントラサシブ・プロダクト・トランスフォーマーという新しいモデルを提案する。
論文参考訳（メタデータ） (2021-07-30T12:11:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。