論文の概要: MARMOT: A Deep Learning Framework for Constructing Multimodal
Representations for Vision-and-Language Tasks
- arxiv url: http://arxiv.org/abs/2109.11526v1
- Date: Thu, 23 Sep 2021 17:48:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-24 15:16:54.887350
- Title: MARMOT: A Deep Learning Framework for Constructing Multimodal
Representations for Vision-and-Language Tasks
- Title(参考訳): MARMOT:視覚・言語タスクのためのマルチモーダル表現構築のためのディープラーニングフレームワーク
- Authors: Patrick Y. Wu, Walter R. Mebane Jr
- Abstract要約: 本稿では、モーダル変換(MARMOT)を用いた多モーダル表現と呼ばれる新しいヴィジュアル・アンド・ランゲージ・フレームワークを提案する。
MARMOTは、2016年アメリカ合衆国大統領選挙における選挙事件を報告しているツイートのマルチラベル分類において、20のカテゴリの19のアンサンブルテキストのみの分類器を上回っている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Political activity on social media presents a data-rich window into political
behavior, but the vast amount of data means that almost all content analyses of
social media require a data labeling step. However, most automated machine
classification methods ignore the multimodality of posted content, focusing
either on text or images. State-of-the-art vision-and-language models are
unusable for most political science research: they require all observations to
have both image and text and require computationally expensive pretraining.
This paper proposes a novel vision-and-language framework called multimodal
representations using modality translation (MARMOT). MARMOT presents two
methodological contributions: it can construct representations for observations
missing image or text, and it replaces the computationally expensive
pretraining with modality translation. MARMOT outperforms an ensemble text-only
classifier in 19 of 20 categories in multilabel classifications of tweets
reporting election incidents during the 2016 U.S. general election. Moreover,
MARMOT shows significant improvements over the results of benchmark multimodal
models on the Hateful Memes dataset, improving the best result set by
VisualBERT in terms of accuracy from 0.6473 to 0.6760 and area under the
receiver operating characteristic curve (AUC) from 0.7141 to 0.7530.
- Abstract(参考訳): ソーシャルメディア上での政治活動は、データ豊富な行動を示すが、膨大な量のデータは、ソーシャルメディアのほとんどのコンテンツ分析が、データラベリングのステップを必要とすることを意味する。
しかし、ほとんどの自動機械分類手法は、テキストや画像に焦点をあてて、投稿されたコンテンツの多重性を無視している。
最先端のビジョン・アンド・ランゲージモデルは、ほとんどの政治科学研究では利用できない。
本稿では,モダリティ翻訳(marmot)を用いたマルチモーダル表現と呼ばれる新しい視覚言語フレームワークを提案する。
MARMOTは、画像やテキストの欠如を観察するための表現を構築することができ、計算に高価な事前学習をモダリティ翻訳に置き換えることができる。
MARMOTは、2016年アメリカ合衆国大統領選挙における選挙事件を報告しているツイートのマルチラベル分類において、20のカテゴリの19のアンサンブルテキストのみの分類器を上回っている。
さらに、MARMOTはHateful Memesデータセットのベンチマークマルチモーダルモデルよりも大幅に改善され、精度は0.6473から0.6760に改善され、受信機の動作特性曲線(AUC)の面積は0.7141から0.7530に改善された。
関連論文リスト
- New Benchmark Dataset and Fine-Grained Cross-Modal Fusion Framework for Vietnamese Multimodal Aspect-Category Sentiment Analysis [1.053698976085779]
ホテルドメインのテキストと画像の両方に対して,14,618の微粒なアノテーションと4,876のテキストイメージ対からなるベトナムのマルチモーダルデータセットであるViMACSAを導入する。
そこで本研究では,細粒クロスモーダル・フュージョン・フレームワーク(FCMF, Fine-Grained Cross-Modal Fusion Framework)を提案する。
実験の結果,本フレームワークはViMACSAデータセット上でのSOTAモデルよりも優れており,F1スコアは79.73%であった。
論文 参考訳(メタデータ) (2024-05-01T14:29:03Z) - Textual Knowledge Matters: Cross-Modality Co-Teaching for Generalized
Visual Class Discovery [69.91441987063307]
Generalized Category Discovery (GCD)は、既知のカテゴリと未知のカテゴリの両方からラベルのないデータをクラスタすることを目的としている。
現在のGCD法は、新しい視覚カテゴリーを発見する際に、人間の認知過程の多様性知覚性を無視する視覚的手がかりのみに依存している。
マルチモーダルなGCDを実現するための2段階のTextGCDフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-12T07:06:50Z) - Text2Topic: Multi-Label Text Classification System for Efficient Topic
Detection in User Generated Content with Zero-Shot Capabilities [2.7311827519141363]
マルチラベル分類性能の高いText to Topic(Text2Topic)を提案する。
Text2Topicはゼロショット予測をサポートし、ドメイン固有のテキスト埋め込みを生成し、プロダクションスケールのバッチ推論を可能にする。
このモデルは現実世界のストリーム処理プラットフォームにデプロイされ、92.9%のマイクロmAPで他のモデルより優れている。
論文 参考訳(メタデータ) (2023-10-23T11:33:24Z) - T-MARS: Improving Visual Representations by Circumventing Text Feature Learning [99.3682210827572]
LAIONの画像の40%近くは、字幕と重なるテキストを含んでいるという、我々の観察に動機づけられた新しいデータフィルタリング手法を提案する。
我々のシンプルでスケーラブルなアプローチであるT-MARSは、テキストが残りの視覚的特徴を支配するペアのみをフィルタリングします。
論文 参考訳(メタデータ) (2023-07-06T16:59:52Z) - Borrowing Human Senses: Comment-Aware Self-Training for Social Media
Multimodal Classification [5.960550152906609]
視覚的および言語的類似性を共同で活用することで,ユーザコメントからヒントを抽出する。
分類タスクは教師-学生のフレームワークにおける自己学習を通じて探索され、通常はラベル付きデータスケールに動機づけられる。
その結果,提案手法は従来の最先端モデルの性能をさらに向上させることが示された。
論文 参考訳(メタデータ) (2023-03-27T08:59:55Z) - Beyond Triplet: Leveraging the Most Data for Multimodal Machine
Translation [53.342921374639346]
マルチモーダル機械翻訳は、視覚などの他のモーダルからの情報を取り入れることで、翻訳品質を向上させることを目的としている。
従来のMMTシステムは主に視覚情報へのアクセスと利用に重点を置いており、画像関連データセット上でそれらの手法を検証する傾向がある。
本稿では,MTのための新しい手法と新しいデータセットを確立する。
論文 参考訳(メタデータ) (2022-12-20T15:02:38Z) - Exploiting BERT For Multimodal Target SentimentClassification Through
Input Space Translation [75.82110684355979]
オブジェクト認識変換器を用いて入力空間内の画像を変換する2ストリームモデルを提案する。
次に、翻訳を利用して、言語モデルに多モーダル情報を提供する補助文を構築する。
2つのマルチモーダルTwitterデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-08-03T18:02:38Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。