論文の概要: The Emotions of the Crowd: Learning Image Sentiment from Tweets via
Cross-modal Distillation
- arxiv url: http://arxiv.org/abs/2304.14942v1
- Date: Fri, 28 Apr 2023 15:56:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-01 13:32:18.926461
- Title: The Emotions of the Crowd: Learning Image Sentiment from Tweets via
Cross-modal Distillation
- Title(参考訳): 群衆の感情--クロスモーダル蒸留によるツイートからのイメージ感情の学習
- Authors: Alessio Serra, Fabio Carrara, Maurizio Tesconi and Fabrizio Falchi
- Abstract要約: 本稿では, クロスモーダル蒸留パラダイムに基づく感情極性分類器の自動構築手法を提案する。
この手法をTwitterからランダムに収集した画像に3ヶ月かけて適用し、弱いラベル付きデータセットを生成した。
- 参考スコア(独自算出の注目度): 7.5543161581406775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Trends and opinion mining in social media increasingly focus on novel
interactions involving visual media, like images and short videos, in addition
to text. In this work, we tackle the problem of visual sentiment analysis of
social media images -- specifically, the prediction of image sentiment
polarity. While previous work relied on manually labeled training sets, we
propose an automated approach for building sentiment polarity classifiers based
on a cross-modal distillation paradigm; starting from scraped multimodal (text
+ images) data, we train a student model on the visual modality based on the
outputs of a textual teacher model that analyses the sentiment of the
corresponding textual modality. We applied our method to randomly collected
images crawled from Twitter over three months and produced, after automatic
cleaning, a weakly-labeled dataset of $\sim$1.5 million images. Despite
exploiting noisy labeled samples, our training pipeline produces classifiers
showing strong generalization capabilities and outperforming the current state
of the art on five manually labeled benchmarks for image sentiment polarity
prediction.
- Abstract(参考訳): ソーシャルメディアのトレンドと意見マイニングは、テキストに加えて、画像やショートビデオなどのビジュアルメディアを含む新しいインタラクションに焦点を当てている。
本研究では,ソーシャルメディア画像の視覚的感情分析,特に画像感情極性の予測の問題に取り組む。
従来の研究は手動でラベル付けしたトレーニングセットに頼っていたが, クロスモーダル蒸留パラダイムに基づく感情極性分類器の自動構築手法を提案し, スクラップしたマルチモーダル(テキスト+画像)データから, 対応するテキストモダリティの感情を分析するテキスト教師モデルの出力に基づいて, 視覚的モダリティに基づく学生モデルを訓練した。
この手法をTwitterからランダムに収集した画像に3ヶ月かけて適用し、自動クリーニングの後、150万ドルの画像の弱いラベル付きデータセットを作成した。
ノイズの多いラベル付きサンプルを悪用しながら、トレーニングパイプラインは強力な一般化能力を示す分類器を生成し、手動でラベル付けされた5つのベンチマークで画像の感度極性予測を行う。
関連論文リスト
- Stellar: Systematic Evaluation of Human-Centric Personalized
Text-to-Image Methods [52.806258774051216]
我々は,個々のイメージを入力し,生成プロセスの基盤となるテキストと,所望の視覚的コンテキストを記述したテキストに焦点をあてる。
我々は,既存の関連するデータセットよりも桁違いの大きさの個人画像と,リッチなセマンティックな接地真実アノテーションが容易に利用できるパーソナライズされたプロンプトを含む標準化データセット(Stellar)を紹介した。
被験者ごとにテストタイムの微調整を必要とせず,新しいSoTAを定量的かつ人為的に設定した,シンプルで効率的でパーソナライズされたテキスト・ツー・イメージのベースラインを導出する。
論文 参考訳(メタデータ) (2023-12-11T04:47:39Z) - Shatter and Gather: Learning Referring Image Segmentation with Text
Supervision [52.46081425504072]
入力画像中の意味的エンティティを検出し,テキストクエリに関連するエンティティを組み合わせて参照者のマスクを予測するモデルを提案する。
提案手法は,イメージセグメンテーションを参照するための4つの公開ベンチマークで評価され,既存のタスクと最近の全てのベンチマークにおけるオープン語彙セグメンテーションモデルよりも明らかに優れていた。
論文 参考訳(メタデータ) (2023-08-29T15:39:15Z) - Dense Text-to-Image Generation with Attention Modulation [49.287458275920514]
既存のテキストと画像の拡散モデルは、高密度キャプションを与えられた現実的なイメージを合成するのに苦労する。
そこで我々はDenseDiffusionを提案する。DenseDiffusionは、訓練済みのテキスト・ツー・イメージ・モデルを用いて、そのような高密度キャプションを扱う訓練自由な方法である。
レイアウト条件に特化して訓練したモデルを用いて、同様の品質の視覚的結果を得る。
論文 参考訳(メタデータ) (2023-08-24T17:59:01Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - Multi-Modal Representation Learning with Text-Driven Soft Masks [48.19806080407593]
自己教師型学習フレームワークにおける視覚言語表現学習手法を提案する。
画像中の領域をソフトメイキングすることで、画像テキストマッチング(ITM)タスクの多様な特徴を生成する。
マルチモーダルエンコーダを用いて単語条件の視覚的注意を計算し,各単語に関連する領域を同定する。
論文 参考訳(メタデータ) (2023-04-03T05:07:49Z) - Borrowing Human Senses: Comment-Aware Self-Training for Social Media
Multimodal Classification [5.960550152906609]
視覚的および言語的類似性を共同で活用することで,ユーザコメントからヒントを抽出する。
分類タスクは教師-学生のフレームワークにおける自己学習を通じて探索され、通常はラベル付きデータスケールに動機づけられる。
その結果,提案手法は従来の最先端モデルの性能をさらに向上させることが示された。
論文 参考訳(メタデータ) (2023-03-27T08:59:55Z) - Correlational Image Modeling for Self-Supervised Visual Pre-Training [81.82907503764775]
相関画像モデリング(Relational Image Modeling)は、自己監督型視覚前訓練における、新しくて驚くほど効果的なアプローチである。
3つの重要な設計は、相関画像モデリングを非自明で有意義な自己監督タスクとして実現している。
論文 参考訳(メタデータ) (2023-03-22T15:48:23Z) - Generative Negative Text Replay for Continual Vision-Language
Pretraining [95.2784858069843]
視覚言語による事前学習が近年注目を集めている。
大量のデータは、通常ストリーミング形式で収集される。
本稿では,画像とテキスト間のマルチモーダルな知識蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-10-31T13:42:21Z) - Transfer Learning with Joint Fine-Tuning for Multimodal Sentiment
Analysis [0.6091702876917281]
感情分析にジョイントファインチューニングを用いたトランスファーラーニング手法を提案する。
本提案では,テキストと画像の事前学習モデルを共同調整段階に組み込む際の柔軟性について述べる。
論文 参考訳(メタデータ) (2022-10-11T21:16:14Z) - An AutoML-based Approach to Multimodal Image Sentiment Analysis [1.0499611180329804]
本稿では,テキストと画像の感情分析を,automlに基づく最終的な融合分類に組み合わせる手法を提案する。
提案手法は95.19%の精度でB-T4SAデータセットの最先端性能を達成した。
論文 参考訳(メタデータ) (2021-02-16T11:28:50Z) - Deep Multimodal Image-Text Embeddings for Automatic Cross-Media
Retrieval [0.0]
視覚と言語表現を同時に学習するための,エンドツーエンドの深層マルチモーダル畳み込み再帰ネットワークを提案する。
このモデルは、どのペアがマッチ(正)か、どれがミスマッチ(負)かをヒンジベースの三重項ランキングを用いて学習する。
論文 参考訳(メタデータ) (2020-02-23T23:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。