Fugu-MT 論文翻訳(概要): A multimodal deep learning architecture for smoking detection with a small data approach

論文の概要: A multimodal deep learning architecture for smoking detection with a small data approach

arxiv url: http://arxiv.org/abs/2309.10561v1
Date: Tue, 19 Sep 2023 12:15:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-20 14:45:42.795388
Title: A multimodal deep learning architecture for smoking detection with a small data approach
Title（参考訳）: 小型データアプローチによる喫煙検出のためのマルチモーダルディープラーニングアーキテクチャ
Authors: Robert Lakatos, Peter Pollner, Andras Hajdu, Tamas Joo
Abstract要約: 深層学習, 生成法, 人力強化に基づく統合テキスト・画像処理モデルを提案する。画像の精度は74%,テキストの精度は98%である。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Introduction: Covert tobacco advertisements often raise regulatory measures. This paper presents that artificial intelligence, particularly deep learning, has great potential for detecting hidden advertising and allows unbiased, reproducible, and fair quantification of tobacco-related media content. Methods: We propose an integrated text and image processing model based on deep learning, generative methods, and human reinforcement, which can detect smoking cases in both textual and visual formats, even with little available training data. Results: Our model can achieve 74\% accuracy for images and 98\% for text. Furthermore, our system integrates the possibility of expert intervention in the form of human reinforcement. Conclusions: Using the pre-trained multimodal, image, and text processing models available through deep learning makes it possible to detect smoking in different media even with few training data.
Abstract（参考訳）: 導入: 禁煙広告はしばしば規制措置を講じる。本稿では,人工知能,特に深層学習が,隠れた広告を検出する大きな可能性を秘め,タバコ関連メディアコンテンツの不偏,再現性,公平な定量化を可能にしていることを示す。方法:深層学習,生成法,人間強化に基づく統合的なテキスト・画像処理モデルを提案する。結果: 本モデルは, 画像の精度が74\%, テキストが98\%であった。さらに,本システムでは,人間の強化の形で専門家による介入の可能性を統合する。結論: ディープラーニングを通じて利用可能な、事前訓練されたマルチモーダル、イメージ、およびテキスト処理モデルを使用することで、トレーニングデータが少ない場合でも、異なるメディアにおける喫煙を検出することができる。

関連論文リスト

Seek for Incantations: Towards Accurate Text-to-Image Diffusion Synthesis through Prompt Engineering [118.53208190209517]
本稿では,拡散モデルの適切なテキスト記述を即時学習により学習するフレームワークを提案する。提案手法は,入力されたテキストと生成された画像とのマッチングを改善するためのプロンプトを効果的に学習することができる。
論文参考訳（メタデータ） (2024-01-12T03:46:29Z)
From Text to Mask: Localizing Entities Using the Attention of Text-to-Image Diffusion Models [38.14123683674355]
本稿では,テキスト・画像拡散モデルの認知ネットワークにおける注意機構を利用する手法を提案する。そこで我々はPascal VOC 2012 と Microsoft COCO 2014 のセマンティックセグメンテーションを弱教師付きで評価した。本研究は,セグメンテーションの拡散モデルに隠された豊富なマルチモーダル知識を抽出する方法を明らかにする。
論文参考訳（メタデータ） (2023-09-08T04:10:01Z)
Free-ATM: Exploring Unsupervised Learning on Diffusion-Generated Images with Free Attention Masks [64.67735676127208]
テキストと画像の拡散モデルは、画像認識の恩恵を受ける大きな可能性を示している。有望ではあるが、拡散生成画像の教師なし学習に特化した調査は不十分である。上記フリーアテンションマスクをフル活用することで、カスタマイズされたソリューションを導入する。
論文参考訳（メタデータ） (2023-08-13T10:07:46Z)
Domain Generalization for Mammographic Image Analysis with Contrastive Learning [62.25104935889111]
効果的なディープラーニングモデルのトレーニングには、さまざまなスタイルと品質を備えた大規模なデータが必要である。より優れたスタイルの一般化能力を備えた深層学習モデルを実現するために,新しいコントラスト学習法が開発された。提案手法は,様々なベンダスタイルドメインのマンモグラムや,いくつかのパブリックデータセットを用いて,広範囲かつ厳密に評価されている。
論文参考訳（メタデータ） (2023-04-20T11:40:21Z)
Harnessing the Power of Text-image Contrastive Models for Automatic Detection of Online Misinformation [50.46219766161111]
誤情報識別の領域における構成的学習を探求する自己学習モデルを構築した。本モデルでは、トレーニングデータが不十分な場合、非マッチング画像-テキストペア検出の優れた性能を示す。
論文参考訳（メタデータ） (2023-04-19T02:53:59Z)
Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文参考訳（メタデータ） (2023-03-03T18:59:47Z)
Vision Learners Meet Web Image-Text Pairs [32.36188289972377]
本研究では,ノイズの多いWebソースと画像テキストのペアデータに対する自己教師付き事前学習について検討する。マスク付きトレーニング目標を用いたシングルモーダルトレーニングや,画像テキストコンストラシティブトレーニングを用いたマルチモーダルトレーニングなど,さまざまな手法を比較した。我々は、スケーラブルなWebソース画像テキストデータから学習する新しいビジュアル表現事前学習手法MUlti-modal Generator(MUG)を提案する。
論文参考訳（メタデータ） (2023-01-17T18:53:24Z)
Multimodal Masked Autoencoders Learn Transferable Representations [127.35955819874063]
単純でスケーラブルなネットワークアーキテクチャであるM3AE(Multimodal Masked Autoencoder)を提案する。 M3AEは、マスク付きトークン予測により、視覚と言語データの両方の統一エンコーダを学習する。我々は,大規模な画像テキストデータセット上で訓練されたM3AEについて実証的研究を行い,M3AEが下流タスクによく伝達される一般化可能な表現を学習できることを見出した。
論文参考訳（メタデータ） (2022-05-27T19:09:42Z)
KNN-Diffusion: Image Generation via Large-Scale Retrieval [40.6656651653888]
適応する学習は、いくつかの新しい機能を可能にします。微調整の訓練されたモデルと新しいサンプルは、単にテーブルに追加するだけで実現できる。我々の拡散モデルでは、共同のテキスト・イメージ・マルチモーダル・メトリックを利用することで、画像のみを訓練する。
論文参考訳（メタデータ） (2022-04-06T14:13:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。