論文の概要: Borrowing Human Senses: Comment-Aware Self-Training for Social Media
Multimodal Classification
- arxiv url: http://arxiv.org/abs/2303.15016v1
- Date: Mon, 27 Mar 2023 08:59:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 16:18:50.868223
- Title: Borrowing Human Senses: Comment-Aware Self-Training for Social Media
Multimodal Classification
- Title(参考訳): 人間の感覚を借用する: ソーシャルメディアのマルチモーダル分類のためのコメント認識自己学習
- Authors: Chunpu Xu and Jing Li
- Abstract要約: 視覚的および言語的類似性を共同で活用することで,ユーザコメントからヒントを抽出する。
分類タスクは教師-学生のフレームワークにおける自己学習を通じて探索され、通常はラベル付きデータスケールに動機づけられる。
その結果,提案手法は従来の最先端モデルの性能をさらに向上させることが示された。
- 参考スコア(独自算出の注目度): 5.960550152906609
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Social media is daily creating massive multimedia content with paired image
and text, presenting the pressing need to automate the vision and language
understanding for various multimodal classification tasks. Compared to the
commonly researched visual-lingual data, social media posts tend to exhibit
more implicit image-text relations. To better glue the cross-modal semantics
therein, we capture hinting features from user comments, which are retrieved
via jointly leveraging visual and lingual similarity. Afterwards, the
classification tasks are explored via self-training in a teacher-student
framework, motivated by the usually limited labeled data scales in existing
benchmarks. Substantial experiments are conducted on four multimodal social
media benchmarks for image text relation classification, sarcasm detection,
sentiment classification, and hate speech detection. The results show that our
method further advances the performance of previous state-of-the-art models,
which do not employ comment modeling or self-training.
- Abstract(参考訳): ソーシャルメディアは毎日、画像とテキストのペアで巨大なマルチメディアコンテンツを作成しており、様々なマルチモーダル分類タスクのビジョンと言語理解の自動化の必要性を示している。
一般的に研究されている視覚言語データと比較して、ソーシャルメディア投稿はより暗黙的な画像テキスト関係を示す傾向がある。
そこでは,視覚的および言語的類似性を両立させて検索するユーザコメントからヒントを抽出する。
その後、分類タスクは教師/学生のフレームワークで自己学習を通して探索され、既存のベンチマークで通常ラベル付けされたデータスケールによって動機付けられる。
画像テキスト関係分類,皮肉検出,感情分類,ヘイトスピーチ検出の4つのマルチモーダルソーシャルメディアベンチマークにおいて,有意な実験を行った。
提案手法は,コメントモデリングや自己学習を用いない従来の最先端モデルの性能をさらに向上することを示す。
関連論文リスト
- EAML: Ensemble Self-Attention-based Mutual Learning Network for Document
Image Classification [1.1470070927586016]
我々は、アンサンブルトレーニング可能なネットワークのブロックとして機能する自己アテンションベースの融合モジュールを設計する。
トレーニング段階を通して、画像とテキストの区別された特徴を同時に学習することができる。
文書画像分類を行うための自己注意に基づく融合モジュールとともに、相互学習アプローチを活用するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-11T16:05:03Z) - The Emotions of the Crowd: Learning Image Sentiment from Tweets via
Cross-modal Distillation [7.5543161581406775]
本稿では, クロスモーダル蒸留パラダイムに基づく感情極性分類器の自動構築手法を提案する。
この手法をTwitterからランダムに収集した画像に3ヶ月かけて適用し、弱いラベル付きデータセットを生成した。
論文 参考訳(メタデータ) (2023-04-28T15:56:02Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Multi-Modal Few-Shot Object Detection with Meta-Learning-Based
Cross-Modal Prompting [77.69172089359606]
本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。
我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。
提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
論文 参考訳(メタデータ) (2022-04-16T16:45:06Z) - FILIP: Fine-grained Interactive Language-Image Pre-Training [106.19474076935363]
微粒な対話型言語-画像事前学習は、モーダルな遅延相互作用機構を通じてより細粒度なアライメントを実現する。
我々は,FILIP300Mと呼ばれる大規模画像テキストペアデータセットを構築し,事前学習を行う。
実験により、FILIPは複数の下流視覚言語タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2021-11-09T17:15:38Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Cross-Media Keyphrase Prediction: A Unified Framework with
Multi-Modality Multi-Head Attention and Image Wordings [63.79979145520512]
マルチメディア投稿におけるキーワード予測におけるテキストと画像の併用効果について検討する。
複雑なマルチメディアインタラクションを捉えるために,M3H-Att(Multi-Modality Multi-Head Attention)を提案する。
我々のモデルは,従来の注目ネットワークに基づいて,過去の技術状況よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-11-03T08:44:18Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z) - Deep Multimodal Image-Text Embeddings for Automatic Cross-Media
Retrieval [0.0]
視覚と言語表現を同時に学習するための,エンドツーエンドの深層マルチモーダル畳み込み再帰ネットワークを提案する。
このモデルは、どのペアがマッチ(正)か、どれがミスマッチ(負)かをヒンジベースの三重項ランキングを用いて学習する。
論文 参考訳(メタデータ) (2020-02-23T23:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。