論文の概要: Text Conditional Alt-Text Generation for Twitter Images
- arxiv url: http://arxiv.org/abs/2305.14779v1
- Date: Wed, 24 May 2023 06:35:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 19:00:00.604759
- Title: Text Conditional Alt-Text Generation for Twitter Images
- Title(参考訳): Twitter画像のテキスト条件アルトテキスト生成
- Authors: Nikita Srivatsan, Sofia Samaniego, Omar Florez, Taylor
Berg-Kirkpatrick
- Abstract要約: 本稿では,ソーシャルメディア,特にTwitterで共有された画像のアルトテキスト記述を生成するアプローチを提案する。
Twitterに投稿された画像には、便利なコンテキストを提供するユーザ記述のテキストが添付されることが多い。
- 参考スコア(独自算出の注目度): 25.252316986324573
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work we present an approach for generating alternative text (or
alt-text) descriptions for images shared on social media, specifically Twitter.
This task is more than just a special case of image captioning, as alt-text is
both more literally descriptive and context-specific. Also critically, images
posted to Twitter are often accompanied by user-written text that despite not
necessarily describing the image may provide useful context that if properly
leveraged can be informative -- e.g. the tweet may name an uncommon object in
the image that the model has not previously seen. We address this with a CLIP
prefix model that extracts an embedding of the image and passes it to a mapping
network that outputs a short sequence in word embedding space, or a ``prefix'',
to which we also concatenate the text from the tweet itself. This lets the
model condition on both visual and textual information from the post. The
combined multimodal prefix is then fed as a prompt to a pretrained language
model which autoregressively completes the sequence to generate the alt-text.
While prior work has used similar methods for captioning, ours is the first to
our knowledge that incorporates textual information from the associated social
media post into the prefix as well, and we further demonstrate through
ablations that utility of these two information sources stacks. We put forward
a new dataset scraped from Twitter and evaluate on it across a variety of
automated metrics as well as human evaluation, and show that our approach of
conditioning on both tweet text and visual information significantly
outperforms prior work.
- Abstract(参考訳): 本研究では,ソーシャルメディア,特にTwitterで共有された画像に対して,代替テキスト(あるいはalt-text)記述を生成するアプローチを提案する。
このタスクは、単に画像キャプションの特別なケースではない。
また、Twitterに投稿された画像には、必ずしもそのイメージを記述していないにもかかわらず、適切に活用された場合、例えば、ツイートが以前に見たことのないオブジェクトを画像に名前付けるという有用なコンテキストを提供する、ユーザ記述のテキストが添えられていることが多い。
画像の埋め込みを抽出し、単語埋め込み空間に短いシーケンスを出力するマッピングネットワークに渡すクリッププレフィックスモデルや、ツイート自体からテキストを結合する ``prefix''' でこれに対処する。
これにより、投稿から視覚情報とテキスト情報の両方でモデル条件が設定できる。
組み合わせたマルチモーダルプレフィックスは、事前訓練された言語モデルへのプロンプトとして送られ、自動回帰的にシーケンスを完了してalt-textを生成する。
先行研究では字幕の字幕化に類似した手法が用いられてきたが、関連ソーシャルメディア投稿のテキスト情報を接頭辞に組み込んだ知識としては初めてであり、これら2つの情報ソースの有効性をさらに実証する。
我々は、Twitterから抽出された新しいデータセットを公開し、さまざまな自動メトリクスと人的評価で評価し、ツイートテキストと視覚情報の条件付けのアプローチが、以前の作業よりも大幅に優れていることを示す。
関連論文リスト
- Stellar: Systematic Evaluation of Human-Centric Personalized
Text-to-Image Methods [52.806258774051216]
我々は,個々のイメージを入力し,生成プロセスの基盤となるテキストと,所望の視覚的コンテキストを記述したテキストに焦点をあてる。
我々は,既存の関連するデータセットよりも桁違いの大きさの個人画像と,リッチなセマンティックな接地真実アノテーションが容易に利用できるパーソナライズされたプロンプトを含む標準化データセット(Stellar)を紹介した。
被験者ごとにテストタイムの微調整を必要とせず,新しいSoTAを定量的かつ人為的に設定した,シンプルで効率的でパーソナライズされたテキスト・ツー・イメージのベースラインを導出する。
論文 参考訳(メタデータ) (2023-12-11T04:47:39Z) - Visually-Aware Context Modeling for News Image Captioning [54.31708859631821]
News Image Captioningは、ニュース記事や画像からキャプションを作成することを目的としている。
より優れた名前埋め込みを学習するための顔命名モジュールを提案する。
私たちはCLIPを使用して、画像にセマンティックに近い文を検索します。
論文 参考訳(メタデータ) (2023-08-16T12:39:39Z) - Learning to Generate Semantic Layouts for Higher Text-Image
Correspondence in Text-to-Image Synthesis [37.32270579534541]
利用可能なセマンティックレイアウトを活用することで,テキスト画像の対応性を向上させる新しい手法を提案する。
提案手法は,Multi-Modal CelebA-HQおよびCityscapesデータセットにおける既存のテキスト・画像生成手法と比較して,高いテキスト・画像対応を実現する。
論文 参考訳(メタデータ) (2023-08-16T05:59:33Z) - NewsStories: Illustrating articles with visual summaries [49.924916589209374]
我々は,3300万記事,2200万画像,100万ビデオを含む大規模マルチモーダルデータセットを提案する。
現状の画像テキストアライメント手法は、複数の画像を持つ長い物語に対して堅牢ではないことを示す。
本稿では,GoodNewsデータセット上で,ゼロショット画像セット検索において,これらの手法を10%向上させる直感的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-07-26T17:34:11Z) - CIGLI: Conditional Image Generation from Language & Image [5.159265382427163]
我々はCIGLI: Conditional Image Generation from Language and Imageを提案する。
テキスト画像生成のようにテキストに基づいて画像を生成する代わりに、このタスクでは、テキスト記述と画像プロンプトから画像を生成する必要がある。
論文 参考訳(メタデータ) (2021-08-20T00:58:42Z) - Exploiting BERT For Multimodal Target SentimentClassification Through
Input Space Translation [75.82110684355979]
オブジェクト認識変換器を用いて入力空間内の画像を変換する2ストリームモデルを提案する。
次に、翻訳を利用して、言語モデルに多モーダル情報を提供する補助文を構築する。
2つのマルチモーダルTwitterデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-08-03T18:02:38Z) - NewsCLIPpings: Automatic Generation of Out-of-Context Multimodal Media [93.51739200834837]
画像とテキストの両方を操作できないが一致しないデータセットを提案する。
本稿では,字幕に適した画像の自動検索手法をいくつか紹介する。
当社の大規模自動生成NewsCLIPpingsデータセットは、両方のモダリティを共同分析するモデルを必要とします。
論文 参考訳(メタデータ) (2021-04-13T01:53:26Z) - Catching Out-of-Context Misinformation with Self-supervised Learning [2.435006380732194]
テキスト対とテキスト対を自動的に検出する新しい手法を提案する。
私たちのコアアイデアは、異なるソースから一致するキャプションを持つ画像のみを必要とする自己監督型のトレーニング戦略です。
本手法は82%のコンテキスト外検出精度を実現する。
論文 参考訳(メタデータ) (2021-01-15T19:00:42Z) - Text as Neural Operator: Image Manipulation by Text Instruction [68.53181621741632]
本稿では、複雑なテキスト命令を用いて複数のオブジェクトで画像を編集し、オブジェクトの追加、削除、変更を可能にする設定について検討する。
タスクの入力は、(1)参照画像を含むマルチモーダルであり、(2)所望の修正を記述した自然言語の命令である。
提案モデルは,最近の3つの公開データセットの強いベースラインに対して良好に動作することを示す。
論文 参考訳(メタデータ) (2020-08-11T07:07:10Z) - Deep Multimodal Image-Text Embeddings for Automatic Cross-Media
Retrieval [0.0]
視覚と言語表現を同時に学習するための,エンドツーエンドの深層マルチモーダル畳み込み再帰ネットワークを提案する。
このモデルは、どのペアがマッチ(正)か、どれがミスマッチ(負)かをヒンジベースの三重項ランキングを用いて学習する。
論文 参考訳(メタデータ) (2020-02-23T23:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。