論文の概要: Image Matters: A New Dataset and Empirical Study for Multimodal
Hyperbole Detection
- arxiv url: http://arxiv.org/abs/2307.00209v3
- Date: Sat, 9 Mar 2024 02:30:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 16:57:01.777477
- Title: Image Matters: A New Dataset and Empirical Study for Multimodal
Hyperbole Detection
- Title(参考訳): Image Matters:マルチモーダルハイパボラ検出のための新しいデータセットと実証的研究
- Authors: Huixuan Zhang, Xiaojun Wan
- Abstract要約: 私たちはWeibo(中国のソーシャルメディア)からマルチモーダル検出データセットを作成します。
Weiboのテキストとイメージを2つのモダリティとして扱い、ハイパボラ検出におけるテキストとイメージの役割を探求する。
また、このダウンストリームタスクにおいて、事前訓練された異なるマルチモーダルエンコーダの評価を行い、その性能を示す。
- 参考スコア(独自算出の注目度): 52.04083398850383
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Hyperbole, or exaggeration, is a common linguistic phenomenon. The detection
of hyperbole is an important part of understanding human expression. There have
been several studies on hyperbole detection, but most of which focus on text
modality only. However, with the development of social media, people can create
hyperbolic expressions with various modalities, including text, images, videos,
etc. In this paper, we focus on multimodal hyperbole detection. We create a
multimodal detection dataset from Weibo (a Chinese social media) and carry out
some studies on it. We treat the text and image from a piece of weibo as two
modalities and explore the role of text and image for hyperbole detection.
Different pre-trained multimodal encoders are also evaluated on this downstream
task to show their performance. Besides, since this dataset is constructed from
five different topics, we also evaluate the cross-domain performance of
different models. These studies can serve as a benchmark and point out the
direction of further study on multimodal hyperbole detection.
- Abstract(参考訳): 誇張(Hyperbole)または誇張(exaggeration)は、一般的な言語現象である。
ハイパボールの発見は、人間の表現を理解する重要な部分である。
ハイパボラ検出の研究はいくつかあるが、そのほとんどはテキストのモダリティのみに焦点を当てている。
しかし、ソーシャルメディアの発展によって、テキスト、画像、ビデオなど、さまざまなモダリティを持った双曲表現が作成できるようになる。
本稿では,マルチモーダルハイパーボイル検出に注目する。
我々はWeibo(中国のソーシャルメディア)からマルチモーダル検出データセットを作成し、いくつかの研究を行った。
weiboの一部のテキストと画像を2つのモダリティとして扱い,ハイパーボイル検出におけるテキストと画像の役割について検討する。
このダウンストリームタスクでは、さまざまなプリトレーニングされたマルチモーダルエンコーダも評価され、パフォーマンスを示している。
さらに、このデータセットは5つの異なるトピックから構築されているため、異なるモデルのクロスドメイン性能も評価する。
これらの研究は、ベンチマークとして機能し、マルチモーダルハイパーボイル検出に関するさらなる研究の方向性を指摘することができる。
関連論文リスト
- Contrastive Learning-based Multi Modal Architecture for Emoticon Prediction by Employing Image-Text Pairs [13.922091192207718]
本研究の目的は,文,視覚,エモティコン間の関係を分析することである。
我々は,新しいコントラスト学習に基づくマルチモーダルアーキテクチャを提案する。
提案モデルの精度は91%,MCCスコアは90%,エモティコンは90%であった。
論文 参考訳(メタデータ) (2024-08-05T15:45:59Z) - M2SA: Multimodal and Multilingual Model for Sentiment Analysis of Tweets [4.478789600295492]
本稿では,既存のテキスト型Twitter感情データセットを,簡単なキュレーションプロセスを通じてマルチモーダルフォーマットに変換する。
本研究は,研究コミュニティにおける感情関連研究の新たな道を開くものである。
論文 参考訳(メタデータ) (2024-04-02T09:11:58Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - A Match Made in Heaven: A Multi-task Framework for Hyperbole and
Metaphor Detection [27.85834441076481]
ハイパボラとメタファーは日々のコミュニケーションで一般的である。
メタファーやハイパーボアを自動的に検出するための既存のアプローチは、これらの言語現象を独立して研究してきた。
ハイパーボラとメタファを同時に検出するマルチタスク深層学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-27T14:17:59Z) - IRFL: Image Recognition of Figurative Language [20.472997304393413]
図形は、しばしば複数のモダリティ(例えば、テキストと画像の両方)を通して伝達される。
我々は、図形言語データセットの画像認識を開発する。
マルチモーダルな図形言語理解のためのベンチマークとして,2つの新しいタスクを導入する。
論文 参考訳(メタデータ) (2023-03-27T17:59:55Z) - TextMI: Textualize Multimodal Information for Integrating Non-verbal
Cues in Pre-trained Language Models [5.668457303716451]
マルチモーダルな行動分析タスクのための汎用的,競争的なベースラインとして,TextMIを提案する。
我々のアプローチは、モデルの複雑さを著しく減らし、モデルの判断に解釈可能性を追加し、様々なタスクに適用できます。
論文 参考訳(メタデータ) (2023-03-27T17:54:32Z) - Towards Unifying Medical Vision-and-Language Pre-training via Soft
Prompts [63.84720380390935]
textiti. には、重い融合モジュールを使用するかどうかに応じて、融合エンコーダタイプと二重エンコーダタイプという2つの典型的なタイプがある。
PTUnifier という2つのタイプを統一する手法を提案する。
まず、最も代表的な画像/テキストを格納する機能バンクとして機能する視覚的およびテキスト的プロンプトを導入することで、入力形式を統一する。
論文 参考訳(メタデータ) (2023-02-17T15:43:42Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Exploiting BERT For Multimodal Target SentimentClassification Through
Input Space Translation [75.82110684355979]
オブジェクト認識変換器を用いて入力空間内の画像を変換する2ストリームモデルを提案する。
次に、翻訳を利用して、言語モデルに多モーダル情報を提供する補助文を構築する。
2つのマルチモーダルTwitterデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-08-03T18:02:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。