Fugu-MT 論文翻訳(概要): SemiMemes: A Semi-supervised Learning Approach for Multimodal Memes Analysis

論文の概要: SemiMemes: A Semi-supervised Learning Approach for Multimodal Memes Analysis

arxiv url: http://arxiv.org/abs/2304.00020v1
Date: Fri, 31 Mar 2023 11:22:03 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-04 20:06:14.052508
Title: SemiMemes: A Semi-supervised Learning Approach for Multimodal Memes Analysis
Title（参考訳）: Semimemes:マルチモーダルミーム分析のための半教師付き学習手法
Authors: Pham Thai Hoang Tung, Nguyen Tan Viet, Ngo Tien Anh, Phan Duy Hung
Abstract要約: SemiMemesは、自動エンコーダと分類タスクを組み合わせて、リソース豊富な未ラベルデータを利用する新しいトレーニング手法である。本研究は、他のマルチモーダル・セミ教師あり学習モデルよりも優れた、マルチモーダル・セミ教師あり学習手法を提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The prevalence of memes on social media has created the need to sentiment analyze their underlying meanings for censoring harmful content. Meme censoring systems by machine learning raise the need for a semi-supervised learning solution to take advantage of the large number of unlabeled memes available on the internet and make the annotation process less challenging. Moreover, the approach needs to utilize multimodal data as memes' meanings usually come from both images and texts. This research proposes a multimodal semi-supervised learning approach that outperforms other multimodal semi-supervised learning and supervised learning state-of-the-art models on two datasets, the Multimedia Automatic Misogyny Identification and Hateful Memes dataset. Building on the insights gained from Contrastive Language-Image Pre-training, which is an effective multimodal learning technique, this research introduces SemiMemes, a novel training method that combines auto-encoder and classification task to make use of the resourceful unlabeled data.
Abstract（参考訳）: ソーシャルメディア上でのミームの流行は、有害コンテンツを検閲する彼らの根底にある意味を分析する必要性を生み出している。機械学習によるミーム検閲システムは、インターネット上で利用可能な多数のラベルのないミームを活用するための、半教師付き学習ソリューションの必要性を高め、アノテーション処理を難しくする。さらに、このアプローチは、通常、画像とテキストの両方から得られるミームの意味として、マルチモーダルデータを利用する必要がある。本研究は,マルチメディア自動マイソジニー識別とHateful Memesデータセットの2つのデータセット上で,他のマルチモーダル半教師付き学習と教師付き学習モデルを上回る,マルチモーダル半教師付き学習手法を提案する。効果的なマルチモーダル学習手法であるContrastive Language-Image Pre-Trainingから得られた知見に基づいて,自動エンコーダと分類タスクを組み合わせた,資源に恵まれないデータを活用する新たなトレーニング手法であるSemiMemesを紹介する。

関連論文リスト

MemeMind: A Large-Scale Multimodal Dataset with Chain-of-Thought Reasoning for Harmful Meme Detection [4.09109557328609]
有害なミームは、暗黙のセマンティクスと複雑なマルチモーダル相互作用による自動検出に重大な課題をもたらす。 MemeMindは、科学的に厳格な標準、大規模、多様性、バイリンガルサポート(中国語と英語)、詳細なChain-of-Thought(CoT)アノテーションを備えた、新しいデータセットである。本稿では,マルチモーダル情報と推論プロセスモデリングを効果的に統合した,革新的な検出フレームワークMemeGuardを提案する。
論文参考訳（メタデータ） (2025-06-15T13:45:30Z)
Unlearning Sensitive Information in Multimodal LLMs: Benchmark and Attack-Defense Evaluation [88.78166077081912]
我々は、MLLMから特定のマルチモーダル知識を削除する方法を評価するために、マルチモーダル・アンラーニング・ベンチマークUnLOK-VQAとアタック・アンド・ディフェンス・フレームワークを導入する。その結果,マルチモーダル攻撃はテキストや画像のみの攻撃よりも優れており,最も効果的な防御は内部モデル状態から解答情報を除去することを示した。
論文参考訳（メタデータ） (2025-05-01T01:54:00Z)
Exploiting Minority Pseudo-Labels for Semi-Supervised Semantic Segmentation in Autonomous Driving [2.638145329894673]
マイノリティ・クラス・ラーニングを強化するためのプロフェッショナル・トレーニング・モジュールと、より包括的なセマンティック情報を学ぶための一般的なトレーニング・モジュールを提案する。実験では,ベンチマークデータセットの最先端手法と比較して優れた性能を示す。
論文参考訳（メタデータ） (2024-09-19T11:47:25Z)
Detecting and Grounding Multi-Modal Media Manipulation and Beyond [93.08116982163804]
マルチモーダルフェイクメディア(DGM4)の新たな研究課題について述べる。 DGM4は、マルチモーダルメディアの真正性を検出するだけでなく、操作されたコンテンツも検出することを目的としている。本稿では,異なるモーダル間のきめ細かい相互作用を完全に捉えるために,新しい階層型マルチモーダルマニピュレーションrEasoning tRansformer(HAMMER)を提案する。
論文参考訳（メタデータ） (2023-09-25T15:05:46Z)
Unimodal Intermediate Training for Multimodal Meme Sentiment Classification [0.0]
本報告では、比較的豊富な感情ラベル付き一助データを用いた教師付き中間訓練の新たな変種について述べる。本結果より, 単文データの導入により, 統計的に有意な性能向上が得られた。下流モデルの性能を低下させることなく,ラベル付きミームのトレーニングセットを40%削減できることを示す。
論文参考訳（メタデータ） (2023-08-01T13:14:10Z)
Multi-Modal Representation Learning with Text-Driven Soft Masks [48.19806080407593]
自己教師型学習フレームワークにおける視覚言語表現学習手法を提案する。画像中の領域をソフトメイキングすることで、画像テキストマッチング(ITM)タスクの多様な特徴を生成する。マルチモーダルエンコーダを用いて単語条件の視覚的注意を計算し,各単語に関連する領域を同定する。
論文参考訳（メタデータ） (2023-04-03T05:07:49Z)
Vision Learners Meet Web Image-Text Pairs [32.36188289972377]
本研究では,ノイズの多いWebソースと画像テキストのペアデータに対する自己教師付き事前学習について検討する。マスク付きトレーニング目標を用いたシングルモーダルトレーニングや,画像テキストコンストラシティブトレーニングを用いたマルチモーダルトレーニングなど,さまざまな手法を比較した。我々は、スケーラブルなWebソース画像テキストデータから学習する新しいビジュアル表現事前学習手法MUlti-modal Generator(MUG)を提案する。
論文参考訳（メタデータ） (2023-01-17T18:53:24Z)
Multimodal Masked Autoencoders Learn Transferable Representations [127.35955819874063]
単純でスケーラブルなネットワークアーキテクチャであるM3AE(Multimodal Masked Autoencoder)を提案する。 M3AEは、マスク付きトークン予測により、視覚と言語データの両方の統一エンコーダを学習する。我々は,大規模な画像テキストデータセット上で訓練されたM3AEについて実証的研究を行い,M3AEが下流タスクによく伝達される一般化可能な表現を学習できることを見出した。
論文参考訳（メタデータ） (2022-05-27T19:09:42Z)
Meta-Learning and Self-Supervised Pretraining for Real World Image Translation [5.469808405577674]
我々は,新しいマルチタスク・マルチショット画像生成ベンチマークを定式化するために,画像から画像への変換問題について検討する。軽微な問題に対する基本点をいくつか提示し、異なるアプローチ間のトレードオフについて議論する。
論文参考訳（メタデータ） (2021-12-22T14:48:22Z)
MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文参考訳（メタデータ） (2021-10-27T09:57:00Z)
Multimodal Clustering Networks for Self-supervised Learning from Unlabeled Videos [69.61522804742427]
本稿では,共通のマルチモーダル埋め込み空間を学習する自己監督型トレーニングフレームワークを提案する。インスタンスレベルのコントラスト学習の概念をマルチモーダルクラスタリングステップで拡張し,モダリティ間の意味的類似性を捉える。結果として得られる埋め込みスペースは、見えないデータセットや異なるドメインからでも、すべてのモダリティにわたるサンプルの検索を可能にする。
論文参考訳（メタデータ） (2021-04-26T15:55:01Z)
Provable Meta-Learning of Linear Representations [114.656572506859]
我々は、複数の関連するタスクから共通の機能の集合を学習し、その知識を新しい未知のタスクに転送する、という2つの課題に対処する、高速でサンプル効率のアルゴリズムを提供する。また、これらの線形特徴を学習する際のサンプルの複雑さに関する情報理論の下限も提供する。
論文参考訳（メタデータ） (2020-02-26T18:21:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。