論文の概要: Cross-Media Keyphrase Prediction: A Unified Framework with
Multi-Modality Multi-Head Attention and Image Wordings
- arxiv url: http://arxiv.org/abs/2011.01565v1
- Date: Tue, 3 Nov 2020 08:44:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 03:50:50.433768
- Title: Cross-Media Keyphrase Prediction: A Unified Framework with
Multi-Modality Multi-Head Attention and Image Wordings
- Title(参考訳): クロスメディア・キーフレーズ予測:マルチモダリティ・マルチヘッド・アテンションと画像単語を用いた統一フレームワーク
- Authors: Yue Wang, Jing Li, Michael R. Lyu, and Irwin King
- Abstract要約: マルチメディア投稿におけるキーワード予測におけるテキストと画像の併用効果について検討する。
複雑なマルチメディアインタラクションを捉えるために,M3H-Att(Multi-Modality Multi-Head Attention)を提案する。
我々のモデルは,従来の注目ネットワークに基づいて,過去の技術状況よりも大幅に優れていた。
- 参考スコア(独自算出の注目度): 63.79979145520512
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Social media produces large amounts of contents every day. To help users
quickly capture what they need, keyphrase prediction is receiving a growing
attention. Nevertheless, most prior efforts focus on text modeling, largely
ignoring the rich features embedded in the matching images. In this work, we
explore the joint effects of texts and images in predicting the keyphrases for
a multimedia post. To better align social media style texts and images, we
propose: (1) a novel Multi-Modality Multi-Head Attention (M3H-Att) to capture
the intricate cross-media interactions; (2) image wordings, in forms of optical
characters and image attributes, to bridge the two modalities. Moreover, we
design a unified framework to leverage the outputs of keyphrase classification
and generation and couple their advantages. Extensive experiments on a
large-scale dataset newly collected from Twitter show that our model
significantly outperforms the previous state of the art based on traditional
attention networks. Further analyses show that our multi-head attention is able
to attend information from various aspects and boost classification or
generation in diverse scenarios.
- Abstract(参考訳): ソーシャルメディアは毎日大量のコンテンツを生み出している。
ユーザが必要なものを素早く捉えるために、keyphraseの予測が注目を集めている。
しかしながら、これまでのほとんどの取り組みはテキストモデリングに重点を置いており、マッチング画像に埋め込まれたリッチな機能を無視している。
本研究では,マルチメディア投稿におけるキーフレーズの予測におけるテキストと画像の併用効果について検討する。
1) 複雑なメディア間インタラクションを捉えるための新しいマルチモダリティマルチヘッドアテンション (m3h-att) と, (2) 光学的文字と画像属性の形でのイメージワーキングによって,2つのモダリティを橋渡しする手法を提案する。
さらに,キーフレーズ分類と生成の出力を活用するための統一フレームワークを設計し,それらの利点を組み合わせる。
twitterから新たに収集された大規模データセットに関する広範囲な実験により,従来のアテンションネットワークに基づく先行技術を大幅に上回っていることが示された。
さらなる分析により,多面的注意が様々な側面の情報に適応し,多様なシナリオにおける分類や生成を促進できることが示されている。
関連論文リスト
- Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks [62.758680527838436]
Leopardは、複数のテキストリッチイメージを含む視覚言語タスクを扱うビジョン言語モデルである。
まず、テキストリッチでマルチイメージのシナリオに合わせて、約100万の高品質なマルチモーダル命令チューニングデータをキュレートした。
第2に,視覚列長の割り当てを動的に最適化する適応型高解像度マルチイメージ符号化モジュールを開発した。
論文 参考訳(メタデータ) (2024-10-02T16:55:01Z) - SEED-Story: Multimodal Long Story Generation with Large Language Model [66.37077224696242]
SEED-Storyは、MLLM(Multimodal Large Language Model)を利用して拡張マルチモーダルストーリーを生成する新しい手法である。
マルチモーダルアテンションシンク機構を提案し,最大25個のストーリー(トレーニング用10個)を高い効率で自動回帰的に生成する。
本稿では,大規模かつ高解像度なStoryStreamというデータセットを提案する。
論文 参考訳(メタデータ) (2024-07-11T17:21:03Z) - Advanced Multimodal Deep Learning Architecture for Image-Text Matching [33.8315200009152]
画像テキストマッチングは、画像とテキスト間の意味的関連をマッチング関係としてモデル化することを目的とした、重要なマルチモーダルタスクである。
本稿では、視覚情報のための深層ニューラルネットワークの高レベル抽象表現能力と、テキスト意味理解のための自然言語処理モデルの利点を組み合わせた高度なマルチモーダルディープラーニングアーキテクチャを提案する。
実験の結果、既存の画像テキストマッチングモデルと比較して、最適化された新しいモデルは一連のベンチマークデータセットの性能を大幅に改善した。
論文 参考訳(メタデータ) (2024-06-13T08:32:24Z) - MS-Diffusion: Multi-subject Zero-shot Image Personalization with Layout Guidance [6.4680449907623006]
本研究では,マルチオブジェクトを用いたレイアウト誘導ゼロショット画像パーソナライズのためのMS-Diffusionフレームワークを提案する。
提案した多目的クロスアテンションオーケストラは、テキストの制御を保ちながら、オブジェクト間コンポジションを編成する。
論文 参考訳(メタデータ) (2024-06-11T12:32:53Z) - Improving Multimodal Classification of Social Media Posts by Leveraging
Image-Text Auxiliary Tasks [38.943074586111564]
微調整型マルチモーダルモデルにおいて,主課題と協調して2つの補助的損失を用いることの有効性について検討した。
第一に、画像テキストコントラスト(ITC)は、投稿内の画像テキスト表現間の距離を最小化するように設計されている。
第2に、画像テキストマッチング(ITM)は、画像とテキスト間の意味的関係を理解するモデルの能力を高める。
論文 参考訳(メタデータ) (2023-09-14T15:30:59Z) - Multi-Modal Representation Learning with Text-Driven Soft Masks [48.19806080407593]
自己教師型学習フレームワークにおける視覚言語表現学習手法を提案する。
画像中の領域をソフトメイキングすることで、画像テキストマッチング(ITM)タスクの多様な特徴を生成する。
マルチモーダルエンコーダを用いて単語条件の視覚的注意を計算し,各単語に関連する領域を同定する。
論文 参考訳(メタデータ) (2023-04-03T05:07:49Z) - Multi-Granularity Cross-Modality Representation Learning for Named
Entity Recognition on Social Media [11.235498285650142]
ソーシャルメディア上の名前付きエンティティ認識(NER)とは、構造化されていない自由なコンテンツからエンティティを発見し分類することを指す。
本研究は,多粒性クロスモダリティ表現学習を導入する。
実験の結果,提案手法は2つのツイートのベンチマークデータセット上でSOTAあるいはSOTAの性能を近似することができることがわかった。
論文 参考訳(メタデータ) (2022-10-19T15:14:55Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。