論文の概要: Cross-Media Keyphrase Prediction: A Unified Framework with
Multi-Modality Multi-Head Attention and Image Wordings
- arxiv url: http://arxiv.org/abs/2011.01565v1
- Date: Tue, 3 Nov 2020 08:44:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 03:50:50.433768
- Title: Cross-Media Keyphrase Prediction: A Unified Framework with
Multi-Modality Multi-Head Attention and Image Wordings
- Title(参考訳): クロスメディア・キーフレーズ予測:マルチモダリティ・マルチヘッド・アテンションと画像単語を用いた統一フレームワーク
- Authors: Yue Wang, Jing Li, Michael R. Lyu, and Irwin King
- Abstract要約: マルチメディア投稿におけるキーワード予測におけるテキストと画像の併用効果について検討する。
複雑なマルチメディアインタラクションを捉えるために,M3H-Att(Multi-Modality Multi-Head Attention)を提案する。
我々のモデルは,従来の注目ネットワークに基づいて,過去の技術状況よりも大幅に優れていた。
- 参考スコア(独自算出の注目度): 63.79979145520512
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Social media produces large amounts of contents every day. To help users
quickly capture what they need, keyphrase prediction is receiving a growing
attention. Nevertheless, most prior efforts focus on text modeling, largely
ignoring the rich features embedded in the matching images. In this work, we
explore the joint effects of texts and images in predicting the keyphrases for
a multimedia post. To better align social media style texts and images, we
propose: (1) a novel Multi-Modality Multi-Head Attention (M3H-Att) to capture
the intricate cross-media interactions; (2) image wordings, in forms of optical
characters and image attributes, to bridge the two modalities. Moreover, we
design a unified framework to leverage the outputs of keyphrase classification
and generation and couple their advantages. Extensive experiments on a
large-scale dataset newly collected from Twitter show that our model
significantly outperforms the previous state of the art based on traditional
attention networks. Further analyses show that our multi-head attention is able
to attend information from various aspects and boost classification or
generation in diverse scenarios.
- Abstract(参考訳): ソーシャルメディアは毎日大量のコンテンツを生み出している。
ユーザが必要なものを素早く捉えるために、keyphraseの予測が注目を集めている。
しかしながら、これまでのほとんどの取り組みはテキストモデリングに重点を置いており、マッチング画像に埋め込まれたリッチな機能を無視している。
本研究では,マルチメディア投稿におけるキーフレーズの予測におけるテキストと画像の併用効果について検討する。
1) 複雑なメディア間インタラクションを捉えるための新しいマルチモダリティマルチヘッドアテンション (m3h-att) と, (2) 光学的文字と画像属性の形でのイメージワーキングによって,2つのモダリティを橋渡しする手法を提案する。
さらに,キーフレーズ分類と生成の出力を活用するための統一フレームワークを設計し,それらの利点を組み合わせる。
twitterから新たに収集された大規模データセットに関する広範囲な実験により,従来のアテンションネットワークに基づく先行技術を大幅に上回っていることが示された。
さらなる分析により,多面的注意が様々な側面の情報に適応し,多様なシナリオにおける分類や生成を促進できることが示されている。
関連論文リスト
- DeepSpeed-VisualChat: Multi-Round Multi-Image Interleave Chat via
Multi-Modal Causal Attention [55.2825684201129]
DeepSpeed-VisualChatは、マルチモーダル機能を組み込むことで、LLM(Large Language Models)を最適化するように設計されている。
筆者らのフレームワークは,(1)マルチラウンド・マルチイメージ対話のオープンソースサポート,(2)革新的なマルチモーダル因果注意機構の導入,(3)既存のデータセットにデータブレンディング技術を活用してシームレスな対話を実現すること,などが特徴である。
論文 参考訳(メタデータ) (2023-09-25T17:53:29Z) - Improving Multimodal Classification of Social Media Posts by Leveraging
Image-Text Auxiliary Tasks [38.943074586111564]
微調整型マルチモーダルモデルにおいて,主課題と協調して2つの補助的損失を用いることの有効性について検討した。
第一に、画像テキストコントラスト(ITC)は、投稿内の画像テキスト表現間の距離を最小化するように設計されている。
第2に、画像テキストマッチング(ITM)は、画像とテキスト間の意味的関係を理解するモデルの能力を高める。
論文 参考訳(メタデータ) (2023-09-14T15:30:59Z) - Multi-Modal Representation Learning with Text-Driven Soft Masks [48.19806080407593]
自己教師型学習フレームワークにおける視覚言語表現学習手法を提案する。
画像中の領域をソフトメイキングすることで、画像テキストマッチング(ITM)タスクの多様な特徴を生成する。
マルチモーダルエンコーダを用いて単語条件の視覚的注意を計算し,各単語に関連する領域を同定する。
論文 参考訳(メタデータ) (2023-04-03T05:07:49Z) - Borrowing Human Senses: Comment-Aware Self-Training for Social Media
Multimodal Classification [5.960550152906609]
視覚的および言語的類似性を共同で活用することで,ユーザコメントからヒントを抽出する。
分類タスクは教師-学生のフレームワークにおける自己学習を通じて探索され、通常はラベル付きデータスケールに動機づけられる。
その結果,提案手法は従来の最先端モデルの性能をさらに向上させることが示された。
論文 参考訳(メタデータ) (2023-03-27T08:59:55Z) - FaD-VLP: Fashion Vision-and-Language Pre-training towards Unified
Retrieval and Captioning [66.38951790650887]
ファッション分野におけるマルチモーダルタスクは、eコマースにとって大きな可能性を秘めている。
本稿では,ファッションとテクストのペアから構築した弱教師付き三つ組に基づく,ファッション特有の事前学習フレームワークを提案する。
3重項に基づくタスクは、標準的なマルチモーダル事前学習タスクに有効な追加であることを示す。
論文 参考訳(メタデータ) (2022-10-26T21:01:19Z) - Multi-Granularity Cross-Modality Representation Learning for Named
Entity Recognition on Social Media [11.235498285650142]
ソーシャルメディア上の名前付きエンティティ認識(NER)とは、構造化されていない自由なコンテンツからエンティティを発見し分類することを指す。
本研究は,多粒性クロスモダリティ表現学習を導入する。
実験の結果,提案手法は2つのツイートのベンチマークデータセット上でSOTAあるいはSOTAの性能を近似することができることがわかった。
論文 参考訳(メタデータ) (2022-10-19T15:14:55Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。