論文の概要: Volta at SemEval-2021 Task 6: Towards Detecting Persuasive Texts and
Images using Textual and Multimodal Ensemble
- arxiv url: http://arxiv.org/abs/2106.00240v1
- Date: Tue, 1 Jun 2021 05:41:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-02 14:39:15.777642
- Title: Volta at SemEval-2021 Task 6: Towards Detecting Persuasive Texts and
Images using Textual and Multimodal Ensemble
- Title(参考訳): SemEval-2021 Task 6: テキストとマルチモーダルアンサンブルを用いた説得的テキストと画像の検出に向けて
- Authors: Kshitij Gupta, Devansh Gautam, Radhika Mamidi
- Abstract要約: そこで本研究では, BERT をベースとしたモデルに対して, 異なるモダリティで伝達学習手法を提案する。
57.0, 48.2, 52.1のF1スコアを対応するサブタスクで達成する。
- 参考スコア(独自算出の注目度): 7.817598216459955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Memes are one of the most popular types of content used to spread information
online. They can influence a large number of people through rhetorical and
psychological techniques. The task, Detection of Persuasion Techniques in Texts
and Images, is to detect these persuasive techniques in memes. It consists of
three subtasks: (A) Multi-label classification using textual content, (B)
Multi-label classification and span identification using textual content, and
(C) Multi-label classification using visual and textual content. In this paper,
we propose a transfer learning approach to fine-tune BERT-based models in
different modalities. We also explore the effectiveness of ensembles of models
trained in different modalities. We achieve an F1-score of 57.0, 48.2, and 52.1
in the corresponding subtasks.
- Abstract(参考訳): ミームは、情報をオンラインで拡散するために使われる最も人気のあるコンテンツの1つである。
修辞的・心理学的手法によって多くの人々に影響を及ぼすことができる。
テキストや画像における説得技術の検出は,これらの説得技術を検出することを目的としている。
A)テキストコンテンツを用いたマルチラベル分類,(B)テキストコンテンツを用いたマルチラベル分類とスパン識別,(C)ビジュアルコンテンツとテキストコンテンツを用いたマルチラベル分類の3つのサブタスクから構成される。
本稿では, BERT をベースとしたモデルに対して, 異なるモダリティで伝達学習手法を提案する。
また、異なるモードで訓練されたモデルのアンサンブルの有効性についても検討する。
57.0, 48.2, 52.1のF1スコアを対応するサブタスクで達成する。
関連論文リスト
- Contrastive Learning-based Multi Modal Architecture for Emoticon Prediction by Employing Image-Text Pairs [13.922091192207718]
本研究の目的は,文,視覚,エモティコン間の関係を分析することである。
我々は,新しいコントラスト学習に基づくマルチモーダルアーキテクチャを提案する。
提案モデルの精度は91%,MCCスコアは90%,エモティコンは90%であった。
論文 参考訳(メタデータ) (2024-08-05T15:45:59Z) - IITK at SemEval-2024 Task 4: Hierarchical Embeddings for Detection of Persuasion Techniques in Memes [4.679320772294786]
本稿では,この課題に対するクラス定義予測(CDP)と双曲埋め込みに基づくアプローチのアンサンブルを提案する。
我々はHypEmoの階層的なラベル埋め込みと、感情予測のためのマルチタスク学習フレームワークを統合することで、ミーム分類の精度と包括性を向上する。
論文 参考訳(メタデータ) (2024-04-06T06:28:02Z) - Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - Exploring Multi-Modal Contextual Knowledge for Open-Vocabulary Object
Detection [72.36017150922504]
教師の融合変換器から学生検出器へ学習した文脈知識を伝達するためのマルチモーダルな文脈知識蒸留フレームワーク MMC-Det を提案する。
多様なマルチモーダルマスキング言語モデリングは、従来のマルチモーダルマスキング言語モデリング(MLM)に基づくオブジェクト分散制約により実現される。
論文 参考訳(メタデータ) (2023-08-30T08:33:13Z) - Borrowing Human Senses: Comment-Aware Self-Training for Social Media
Multimodal Classification [5.960550152906609]
視覚的および言語的類似性を共同で活用することで,ユーザコメントからヒントを抽出する。
分類タスクは教師-学生のフレームワークにおける自己学習を通じて探索され、通常はラベル付きデータスケールに動機づけられる。
その結果,提案手法は従来の最先端モデルの性能をさらに向上させることが示された。
論文 参考訳(メタデータ) (2023-03-27T08:59:55Z) - Towards Unifying Medical Vision-and-Language Pre-training via Soft
Prompts [63.84720380390935]
textiti. には、重い融合モジュールを使用するかどうかに応じて、融合エンコーダタイプと二重エンコーダタイプという2つの典型的なタイプがある。
PTUnifier という2つのタイプを統一する手法を提案する。
まず、最も代表的な画像/テキストを格納する機能バンクとして機能する視覚的およびテキスト的プロンプトを導入することで、入力形式を統一する。
論文 参考訳(メタデータ) (2023-02-17T15:43:42Z) - Universal Multimodal Representation for Language Understanding [110.98786673598015]
本研究は,一般的なNLPタスクの補助信号として視覚情報を利用する新しい手法を提案する。
各文に対して、まず、既存の文-画像ペア上で抽出された軽トピック-画像検索テーブルから、フレキシブルな画像を検索する。
そして、テキストと画像はそれぞれトランスフォーマーエンコーダと畳み込みニューラルネットワークによって符号化される。
論文 参考訳(メタデータ) (2023-01-09T13:54:11Z) - Multimodal Lecture Presentations Dataset: Understanding Multimodality in
Educational Slides [57.86931911522967]
学習内容のマルチモーダル理解における機械学習モデルの能力を検証する。
このデータセットには,180時間以上のビデオと9000時間以上のスライドが,各科目から10人の講師が参加している。
マルチモーダル・トランスフォーマーであるPolyViLTを導入する。
論文 参考訳(メタデータ) (2022-08-17T05:30:18Z) - Open-Vocabulary Multi-Label Classification via Multi-modal Knowledge
Transfer [55.885555581039895]
マルチラベルゼロショット学習(ML-ZSL)は、事前訓練されたテキストラベル埋め込みによる知識の伝達に焦点を当てている。
マルチラベル分類のためのMKT(Multimodal Knowledge Transfer)と呼ばれる新しいオープン語彙フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-05T08:32:18Z) - MultiGBS: A multi-layer graph approach to biomedical summarization [6.11737116137921]
本稿では,文書を多層グラフとしてモデル化し,テキストの複数の特徴を同時に処理可能にするドメイン固有手法を提案する。
教師なしの手法では,MultiRankアルゴリズムと概念数に基づいて,多層グラフから文を選択する。
提案するMultiGBSアルゴリズムはUMLSを採用し,SemRepやMetaMap,OGERといったさまざまなツールを用いて概念と関係を抽出する。
論文 参考訳(メタデータ) (2020-08-27T04:22:37Z) - Evaluating Multimodal Representations on Visual Semantic Textual
Similarity [22.835699807110018]
本稿では,新しいタスクであるVisual Semantic Textual similarity (vSTS)を提案する。
単純なマルチモーダル表現を用いた実験により、画像表現の追加はテキストのみの表現よりも推論が優れていることが示された。
我々の研究は、視覚情報のテキスト推論への貢献が成功したことを初めて示しており、より複雑なマルチモーダル表現オプションの余地は十分にある。
論文 参考訳(メタデータ) (2020-04-04T09:03:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。