論文の概要: MATK: The Meme Analytical Tool Kit
- arxiv url: http://arxiv.org/abs/2312.06094v1
- Date: Mon, 11 Dec 2023 03:36:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 17:04:33.572568
- Title: MATK: The Meme Analytical Tool Kit
- Title(参考訳): matk: meme分析ツールキット
- Authors: Ming Shan Hee, Aditi Kumaresan, Nguyen Khoi Hoang, Nirmalendu Prakash,
Rui Cao, Roy Ka-Wei Lee
- Abstract要約: 我々は,既存のミームデータセットと最先端マルチモーダルモデルをサポートするために設計されたオープンソースツールキットであるMeme Analytical Tool Kit (MATK)を紹介した。
MATKは、ミーム分類タスクのためのこれらのマルチモーダルモデルのトレーニングと再現を支援するとともに、その強度と弱点に関する洞察を得るために分析技術を提供する。
- 参考スコア(独自算出の注目度): 12.278828922709353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rise of social media platforms has brought about a new digital culture
called memes. Memes, which combine visuals and text, can strongly influence
public opinions on social and cultural issues. As a result, people have become
interested in categorizing memes, leading to the development of various
datasets and multimodal models that show promising results in this field.
However, there is currently a lack of a single library that allows for the
reproduction, evaluation, and comparison of these models using fair benchmarks
and settings. To fill this gap, we introduce the Meme Analytical Tool Kit
(MATK), an open-source toolkit specifically designed to support existing memes
datasets and cutting-edge multimodal models. MATK aims to assist researchers
and engineers in training and reproducing these multimodal models for meme
classification tasks, while also providing analysis techniques to gain insights
into their strengths and weaknesses. To access MATK, please visit
\url{https://github.com/Social-AI-Studio/MATK}.
- Abstract(参考訳): ソーシャルメディアプラットフォームの台頭は、memesと呼ばれる新しいデジタル文化をもたらした。
視覚とテキストを組み合わせたミームは、社会的・文化的問題に対する世論に強く影響を与える。
その結果、人々はミームの分類に興味を持ち、この分野で有望な結果を示す様々なデータセットとマルチモーダルモデルの開発につながった。
しかし、現在、公正なベンチマークと設定を使用してこれらのモデルの再現、評価、比較を可能にする単一のライブラリが欠落している。
このギャップを埋めるために,既存のミームデータセットと最先端マルチモーダルモデルをサポートするために設計されたオープンソースツールキットであるMeme Analytical Tool Kit (MATK)を紹介した。
MATKは、ミーム分類タスクのためのこれらのマルチモーダルモデルのトレーニングと再現を支援するとともに、その強度と弱点に関する洞察を得るために分析技術を提供する。
MATKにアクセスするには、 \url{https://github.com/Social-AI-Studio/MATK} をご覧ください。
関連論文リスト
- InfiMM-WebMath-40B: Advancing Multimodal Pre-Training for Enhanced Mathematical Reasoning [58.7966588457529]
InfiMM-WebMath-40Bは、インターリーブされた画像テキスト文書の高品質なデータセットである。
ウェブページは2400万、画像URLは8500万、テキストトークンは400億だ。
テキストのみのベンチマークでは,400億トークンしか利用していないにもかかわらず,データセットは1.3Bモデルの性能を大幅に向上させることが示された。
私たちのモデルは、MathVerseやWe-Mathといったマルチモーダルな数学ベンチマーク上で、オープンソースモデルの中で新しい最先端のモデルを設定しました。
論文 参考訳(メタデータ) (2024-09-19T08:41:21Z) - Knowledge-Aware Reasoning over Multimodal Semi-structured Tables [85.24395216111462]
本研究では、現在のAIモデルがマルチモーダルな構造化データに基づいて知識を考慮した推論を行うことができるかどうかを検討する。
この目的のために設計された新しいデータセットであるMMTabQAを紹介する。
我々の実験は、複数のテキストと画像の入力を効果的に統合し解釈する上で、現在のAIモデルに対する重大な課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-08-25T15:17:43Z) - Decoding Memes: A Comparative Study of Machine Learning Models for Template Identification [0.0]
ミームテンプレート(meme template)は、ミームを作成するのに使用されるレイアウトまたはフォーマットである。
ミームのバイラル性に関する広範な研究にもかかわらず、ミームのテンプレートを自動的に識別する作業は依然として課題である。
本稿では,既存のmemeテンプレート識別手法の総合的な比較と評価を行う。
論文 参考訳(メタデータ) (2024-08-15T12:52:06Z) - VLMEvalKit: An Open-Source Toolkit for Evaluating Large Multi-Modality Models [89.63342806812413]
PyTorchに基づく大規模マルチモーダリティモデルを評価するためのオープンソースツールキットを提案する。
VLMEvalKitは70以上の大規模なマルチモダリティモデルを実装しており、プロプライエタリなAPIとオープンソースモデルの両方を含んでいる。
マルチモーダル学習研究の進展を追跡するために,OpenVLM Leaderboardを主催する。
論文 参考訳(メタデータ) (2024-07-16T13:06:15Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
このデータセットには、スキーマ図、シミュレーション画像、マクロ/顕微鏡写真、実験的可視化などの図が含まれている。
我々は,6つのプロプライエタリモデルと10以上のオープンソースモデルを評価し,科学的フィギュアキャプションと複数選択質問のベンチマークを開発した。
データセットとベンチマークは、さらなる研究をサポートするためにリリースされる予定だ。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - Explainable Multimodal Sentiment Analysis on Bengali Memes [0.0]
ミームの根底にある感情を理解し、解釈することは、情報の時代において重要になっている。
本研究ではResNet50とBanglishBERTを用いたマルチモーダル手法を用いて0.71重み付きF1スコアの良好な結果を得た。
論文 参考訳(メタデータ) (2023-12-20T17:15:10Z) - PromptMTopic: Unsupervised Multimodal Topic Modeling of Memes using
Large Language Models [7.388466146105024]
テキストと視覚の両方からトピックを学習する新しいマルチモーダルプロンプトベースモデルであるtextPromptMTopicを提案する。
本モデルは,テキストと視覚的モダリティ間の意味的相互作用を考慮して,ミームから学習したトピックを効果的に抽出し,クラスタ化する。
我々の研究は、今日の社会における重要なコミュニケーション形態であるミームの話題とテーマの理解に寄与する。
論文 参考訳(メタデータ) (2023-12-11T03:36:50Z) - mPLUG-PaperOwl: Scientific Diagram Analysis with the Multimodal Large
Language Model [73.38800189095173]
本研究はマルチモーダルLLMのマルチモーダルダイアグラム解析機能を強化することに焦点を当てる。
高品質な論文のLatexソースファイルを解析することにより、マルチモーダルなダイアグラム理解データセットM-Paperを慎重に構築する。
M-Paperは、画像やラテックス符号のフォーマットの数字や表を含む、複数の科学的図の合同理解をサポートする最初のデータセットである。
論文 参考訳(メタデータ) (2023-11-30T04:43:26Z) - SemiMemes: A Semi-supervised Learning Approach for Multimodal Memes
Analysis [0.0]
SemiMemesは、自動エンコーダと分類タスクを組み合わせて、リソース豊富な未ラベルデータを利用する新しいトレーニング手法である。
本研究は、他のマルチモーダル・セミ教師あり学習モデルよりも優れた、マルチモーダル・セミ教師あり学習手法を提案する。
論文 参考訳(メタデータ) (2023-03-31T11:22:03Z) - Cluster-based Deep Ensemble Learning for Emotion Classification in
Internet Memes [18.86848589288164]
本稿では,感情分類のためのクラスタベース深層アンサンブル学習(CDEL)を提案する。
CDELは、クラスタリングアルゴリズムと組み合わせてディープラーニングモデルの利点を利用するハイブリッドモデルである。
感情分類のためのベンチマークデータセットを用いてCDELの性能を評価する。
論文 参考訳(メタデータ) (2023-02-16T15:01:07Z) - Detecting and Understanding Harmful Memes: A Survey [48.135415967633676]
我々は有害なミームに焦点を当てた総合的な調査を行っている。
興味深い発見の1つは、多くの有害ミームが実際には研究されていないことである。
別の観察では、ミームは異なる言語で再パッケージ化することでグローバルに伝播し、多言語化することもできる。
論文 参考訳(メタデータ) (2022-05-09T13:43:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。