論文の概要: ImageArg: A Multi-modal Tweet Dataset for Image Persuasiveness Mining
- arxiv url: http://arxiv.org/abs/2209.06416v1
- Date: Wed, 14 Sep 2022 05:03:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-15 12:58:03.800031
- Title: ImageArg: A Multi-modal Tweet Dataset for Image Persuasiveness Mining
- Title(参考訳): ImageArg:イメージ説得性マイニングのためのマルチモーダルツイートデータセット
- Authors: Zhexiong Liu, Meiqi Guo, Yue Dai, Diane Litman
- Abstract要約: ツイート中の画像説得性のアノテーションからなるマルチモーダルデータセットであるImageArgを提案する。
我々は、広く使われているマルチモーダル学習手法を用いて、ImageArgのイメージ説得性タスクをベンチマークする。
- 参考スコア(独自算出の注目度): 1.702518371016199
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The growing interest in developing corpora of persuasive texts has promoted
applications in automated systems, e.g., debating and essay scoring systems;
however, there is little prior work mining image persuasiveness from an
argumentative perspective. To expand persuasiveness mining into a multi-modal
realm, we present a multi-modal dataset, ImageArg, consisting of annotations of
image persuasiveness in tweets. The annotations are based on a persuasion
taxonomy we developed to explore image functionalities and the means of
persuasion. We benchmark image persuasiveness tasks on ImageArg using
widely-used multi-modal learning methods. The experimental results show that
our dataset offers a useful resource for this rich and challenging topic, and
there is ample room for modeling improvement.
- Abstract(参考訳): 説得力のあるテキストのコーパスの開発への関心が高まり、例えば議論やエッセイの採点システムなどの自動化システムへの応用が促進されているが、議論的な観点からは以前の作業採鉱イメージの説得性はほとんどない。
マルチモーダル領域にパーサシブネスマイニングを拡張するために,つぶやきにおける画像説得性のアノテーションからなるマルチモーダルデータセットであるImageArgを提案する。
このアノテーションは、画像機能と説得方法を探るために開発した説得分類に基づいています。
マルチモーダル学習法を用いて,imageargにおける画像知覚タスクのベンチマークを行った。
実験の結果,我々のデータセットは,この豊かで挑戦的なトピックに有用なリソースを提供しており,モデリングの改善の余地は十分にあることがわかった。
関連論文リスト
- Beyond Text: Optimizing RAG with Multimodal Inputs for Industrial Applications [3.7636375810345744]
大きな言語モデル(LLM)は、質問に答える際、印象的な能力を示してきたが、それらはドメイン固有の知識に欠け、幻覚を起こす傾向がある。
Retrieval Augmented Generation(RAG)は、これらの課題に対処するためのアプローチのひとつであり、マルチモーダルモデルは、テキストとイメージの両方を処理するための有望なAIアシスタントとして現れている。
本稿では,産業領域のRAGシステムにマルチモーダルモデルをどのように組み込むかを決定するための一連の実験について述べる。
論文 参考訳(メタデータ) (2024-10-29T11:03:31Z) - Contrastive Learning-based Multi Modal Architecture for Emoticon Prediction by Employing Image-Text Pairs [13.922091192207718]
本研究の目的は,文,視覚,エモティコン間の関係を分析することである。
我々は,新しいコントラスト学習に基づくマルチモーダルアーキテクチャを提案する。
提案モデルの精度は91%,MCCスコアは90%,エモティコンは90%であった。
論文 参考訳(メタデータ) (2024-08-05T15:45:59Z) - Multi-source Semantic Graph-based Multimodal Sarcasm Explanation
Generation [53.97962603641629]
本稿では,mulTi-source sEmantic grAph-based Multimodal sarcasm explanation scheme, TEAMを提案する。
TEAMは、入力画像から従来のグローバルな視覚的特徴の代わりに、オブジェクトレベルのセマンティックメタデータを抽出する。
TEAMはマルチソース意味関係を包括的に特徴付けるマルチソース意味グラフを導入している。
論文 参考訳(メタデータ) (2023-06-29T03:26:10Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - Multi-modal Visual Understanding with Prompts for Semantic Information
Disentanglement of Image [0.0]
プロンプト付き画像のマルチモーダル視覚的理解は、画像の意味的理解を強化するために様々な視覚的およびテキスト的手がかりを使用する。
プロンプトベースの手法を利用することで、下流タスクに有用な情報を抽出するために、モデルが画像の特定の特徴にフォーカスすることを学ぶことができる。
論文 参考訳(メタデータ) (2023-05-16T10:15:44Z) - NewsStories: Illustrating articles with visual summaries [49.924916589209374]
我々は,3300万記事,2200万画像,100万ビデオを含む大規模マルチモーダルデータセットを提案する。
現状の画像テキストアライメント手法は、複数の画像を持つ長い物語に対して堅牢ではないことを示す。
本稿では,GoodNewsデータセット上で,ゼロショット画像セット検索において,これらの手法を10%向上させる直感的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-07-26T17:34:11Z) - Cross-Media Keyphrase Prediction: A Unified Framework with
Multi-Modality Multi-Head Attention and Image Wordings [63.79979145520512]
マルチメディア投稿におけるキーワード予測におけるテキストと画像の併用効果について検討する。
複雑なマルチメディアインタラクションを捉えるために,M3H-Att(Multi-Modality Multi-Head Attention)を提案する。
我々のモデルは,従来の注目ネットワークに基づいて,過去の技術状況よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-11-03T08:44:18Z) - Can images help recognize entities? A study of the role of images for
Multimodal NER [20.574849371747685]
マルチモーダルな名前付きエンティティ認識(MNER)は、言語理解と視覚的コンテキストのギャップを埋める必要がある。
MNERタスクにイメージを組み込むために多くのマルチモーダルニューラルネットワークが提案されているが、マルチモーダル相互作用を利用するモデルの能力はいまだに理解されていない。
論文 参考訳(メタデータ) (2020-10-23T23:41:51Z) - MAF: Multimodal Alignment Framework for Weakly-Supervised Phrase
Grounding [74.33171794972688]
本稿では,詳細な視覚表現と視覚認識言語表現を活用することで,句オブジェクトの関連性をモデル化するアルゴリズムを提案する。
広く採用されているFlickr30kデータセットで実施された実験は、既存の弱教師付き手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-10-12T00:43:52Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。