論文の概要: Understanding Social Media Cross-Modality Discourse in Linguistic Space
- arxiv url: http://arxiv.org/abs/2302.13311v1
- Date: Sun, 26 Feb 2023 13:04:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 17:43:40.827964
- Title: Understanding Social Media Cross-Modality Discourse in Linguistic Space
- Title(参考訳): 言語空間におけるソーシャルメディアクロスモダリティ談話の理解
- Authors: Chunpu Xu, Hanzhuo Tan, Jing Li, Piji Li
- Abstract要約: 本稿では、人間の読者が画像とテキストの理解をどう組み合わせるかを反映した、クロスモーダルな談話という新しい概念を提案する。
我々は,手動で注釈付き談話ラベルを付けた16Kのマルチメディアツイートを含む,最初のデータセットを構築した。
- 参考スコア(独自算出の注目度): 26.19949919969774
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The multimedia communications with texts and images are popular on social
media. However, limited studies concern how images are structured with texts to
form coherent meanings in human cognition. To fill in the gap, we present a
novel concept of cross-modality discourse, reflecting how human readers couple
image and text understandings. Text descriptions are first derived from images
(named as subtitles) in the multimedia contexts. Five labels -- entity-level
insertion, projection and concretization and scene-level restatement and
extension -- are further employed to shape the structure of subtitles and texts
and present their joint meanings. As a pilot study, we also build the very
first dataset containing 16K multimedia tweets with manually annotated
discourse labels. The experimental results show that the multimedia encoder
based on multi-head attention with captions is able to obtain
the-state-of-the-art results.
- Abstract(参考訳): テキストや画像によるマルチメディア通信はソーシャルメディアで人気がある。
しかし、限定的な研究は、画像がテキストで構成され、人間の認知において一貫性のある意味を形成する方法に関するものである。
このギャップを埋めるために,人間の読者がイメージとテキスト理解をどのように結合するかを反映した,クロスモダリティ談話という新しい概念を提案する。
テキスト記述は、まずマルチメディアの文脈における画像(字幕名)から導かれる。
サブタイトルとテキストの構造を形作るために、5つのラベル(エンティティレベルの挿入、投影、コンクリエーション、シーンレベルの復元、拡張)が使われる。
パイロットスタディとして、手動で注釈付き談話ラベルを付けた16Kのマルチメディアツイートを含む、最初のデータセットを構築しました。
実験の結果,キャプション付きマルチヘッドアテンションに基づくマルチメディアエンコーダは最先端の成果を得ることができた。
関連論文リスト
- C-CLIP: Contrastive Image-Text Encoders to Close the
Descriptive-Commentative Gap [0.5439020425819]
画像とソーシャルメディア投稿のコメントの相互作用は、その全体的なメッセージを理解する上で非常に重要である。
マルチモーダル埋め込みモデル、すなわちCLIPの最近の進歩は、画像とテキストの関連性において大きな進歩をもたらした。
CLIPモデルの現在のトレーニング体制は、サイトや言語に関わらず、ソーシャルメディア上のコンテンツにマッチするには不十分である。
画像テキストエンコーダを明示的なコメント対でトレーニングすると,検索結果が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-09-06T19:03:49Z) - Unleashing the Imagination of Text: A Novel Framework for Text-to-image
Person Retrieval via Exploring the Power of Words [0.951828574518325]
文中の単語のパワーを探索する新しい枠組みを提案する。
このフレームワークは、トレーニング済みのフルCLIPモデルをイメージとテキストのデュアルエンコーダとして採用している。
ハードサンプルの処理に適したクロスモーダル三重項損失を導入し,微妙な違いを識別するモデルの能力を高めた。
論文 参考訳(メタデータ) (2023-07-18T08:23:46Z) - Borrowing Human Senses: Comment-Aware Self-Training for Social Media
Multimodal Classification [5.960550152906609]
視覚的および言語的類似性を共同で活用することで,ユーザコメントからヒントを抽出する。
分類タスクは教師-学生のフレームワークにおける自己学習を通じて探索され、通常はラベル付きデータスケールに動機づけられる。
その結果,提案手法は従来の最先端モデルの性能をさらに向上させることが示された。
論文 参考訳(メタデータ) (2023-03-27T08:59:55Z) - Universal Multimodal Representation for Language Understanding [110.98786673598015]
本研究は,一般的なNLPタスクの補助信号として視覚情報を利用する新しい手法を提案する。
各文に対して、まず、既存の文-画像ペア上で抽出された軽トピック-画像検索テーブルから、フレキシブルな画像を検索する。
そして、テキストと画像はそれぞれトランスフォーマーエンコーダと畳み込みニューラルネットワークによって符号化される。
論文 参考訳(メタデータ) (2023-01-09T13:54:11Z) - NewsStories: Illustrating articles with visual summaries [49.924916589209374]
我々は,3300万記事,2200万画像,100万ビデオを含む大規模マルチモーダルデータセットを提案する。
現状の画像テキストアライメント手法は、複数の画像を持つ長い物語に対して堅牢ではないことを示す。
本稿では,GoodNewsデータセット上で,ゼロショット画像セット検索において,これらの手法を10%向上させる直感的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-07-26T17:34:11Z) - Cross-Modal Graph with Meta Concepts for Video Captioning [101.97397967958722]
ビデオキャプションのためのメタ概念を用いたクロスモーダルグラフ(CMG)を提案する。
ビデオキャプションで有用な意味概念を網羅するために、テキスト記述のための対応する視覚領域を弱く学習する。
我々は、予測された述語を用いて、全体的ビデオレベルおよび局所的フレームレベルのビデオグラフを構築し、ビデオシーケンス構造をモデル化する。
論文 参考訳(メタデータ) (2021-08-14T04:00:42Z) - From Show to Tell: A Survey on Image Captioning [48.98681267347662]
視覚と言語を結びつけることは、ジェネレーティブ・インテリジェンスにおいて重要な役割を担っている。
画像キャプションの研究はまだ結論に達していない。
本研究の目的は,画像キャプション手法の包括的概要と分類を提供することである。
論文 参考訳(メタデータ) (2021-07-14T18:00:54Z) - Matching Visual Features to Hierarchical Semantic Topics for Image
Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。
複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。
段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文 参考訳(メタデータ) (2021-05-10T06:55:39Z) - Cross-Media Keyphrase Prediction: A Unified Framework with
Multi-Modality Multi-Head Attention and Image Wordings [63.79979145520512]
マルチメディア投稿におけるキーワード予測におけるテキストと画像の併用効果について検討する。
複雑なマルチメディアインタラクションを捉えるために,M3H-Att(Multi-Modality Multi-Head Attention)を提案する。
我々のモデルは,従来の注目ネットワークに基づいて,過去の技術状況よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-11-03T08:44:18Z) - Preserving Semantic Neighborhoods for Robust Cross-modal Retrieval [41.505920288928365]
マルチモーダルデータは、クロスモーダル検索方法への関心を喚起している。
テキストと画像のサブスペースのセマンティックコヒーレンシを促進する新しいモダリティ損失を提案する。
提案手法では,ペア画像とテキストが近接するだけでなく,期待される画像イメージとテキストテキストの関係も観察される。
論文 参考訳(メタデータ) (2020-07-16T20:32:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。