論文の概要: Text Conditional Alt-Text Generation for Twitter Images
- arxiv url: http://arxiv.org/abs/2305.14779v1
- Date: Wed, 24 May 2023 06:35:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 19:00:00.604759
- Title: Text Conditional Alt-Text Generation for Twitter Images
- Title(参考訳): Twitter画像のテキスト条件アルトテキスト生成
- Authors: Nikita Srivatsan, Sofia Samaniego, Omar Florez, Taylor
Berg-Kirkpatrick
- Abstract要約: 本稿では,ソーシャルメディア,特にTwitterで共有された画像のアルトテキスト記述を生成するアプローチを提案する。
Twitterに投稿された画像には、便利なコンテキストを提供するユーザ記述のテキストが添付されることが多い。
- 参考スコア(独自算出の注目度): 25.252316986324573
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work we present an approach for generating alternative text (or
alt-text) descriptions for images shared on social media, specifically Twitter.
This task is more than just a special case of image captioning, as alt-text is
both more literally descriptive and context-specific. Also critically, images
posted to Twitter are often accompanied by user-written text that despite not
necessarily describing the image may provide useful context that if properly
leveraged can be informative -- e.g. the tweet may name an uncommon object in
the image that the model has not previously seen. We address this with a CLIP
prefix model that extracts an embedding of the image and passes it to a mapping
network that outputs a short sequence in word embedding space, or a ``prefix'',
to which we also concatenate the text from the tweet itself. This lets the
model condition on both visual and textual information from the post. The
combined multimodal prefix is then fed as a prompt to a pretrained language
model which autoregressively completes the sequence to generate the alt-text.
While prior work has used similar methods for captioning, ours is the first to
our knowledge that incorporates textual information from the associated social
media post into the prefix as well, and we further demonstrate through
ablations that utility of these two information sources stacks. We put forward
a new dataset scraped from Twitter and evaluate on it across a variety of
automated metrics as well as human evaluation, and show that our approach of
conditioning on both tweet text and visual information significantly
outperforms prior work.
- Abstract(参考訳): 本研究では,ソーシャルメディア,特にTwitterで共有された画像に対して,代替テキスト(あるいはalt-text)記述を生成するアプローチを提案する。
このタスクは、単に画像キャプションの特別なケースではない。
また、Twitterに投稿された画像には、必ずしもそのイメージを記述していないにもかかわらず、適切に活用された場合、例えば、ツイートが以前に見たことのないオブジェクトを画像に名前付けるという有用なコンテキストを提供する、ユーザ記述のテキストが添えられていることが多い。
画像の埋め込みを抽出し、単語埋め込み空間に短いシーケンスを出力するマッピングネットワークに渡すクリッププレフィックスモデルや、ツイート自体からテキストを結合する ``prefix''' でこれに対処する。
これにより、投稿から視覚情報とテキスト情報の両方でモデル条件が設定できる。
組み合わせたマルチモーダルプレフィックスは、事前訓練された言語モデルへのプロンプトとして送られ、自動回帰的にシーケンスを完了してalt-textを生成する。
先行研究では字幕の字幕化に類似した手法が用いられてきたが、関連ソーシャルメディア投稿のテキスト情報を接頭辞に組み込んだ知識としては初めてであり、これら2つの情報ソースの有効性をさらに実証する。
我々は、Twitterから抽出された新しいデータセットを公開し、さまざまな自動メトリクスと人的評価で評価し、ツイートテキストと視覚情報の条件付けのアプローチが、以前の作業よりも大幅に優れていることを示す。
関連論文リスト
- Image2Text2Image: A Novel Framework for Label-Free Evaluation of Image-to-Text Generation with Text-to-Image Diffusion Models [16.00576040281808]
本稿では,画像キャプションモデルを評価するための新しいフレームワークであるImage2Text2Imageを提案する。
高い類似度スコアは、このモデルが忠実なテキスト記述を生み出し、低いスコアは相違点を強調していることを示唆している。
本フレームワークは人手によるキャプション参照に依存しないので,画像キャプションモデルを評価する上で貴重なツールである。
論文 参考訳(メタデータ) (2024-11-08T17:07:01Z) - Altogether: Image Captioning via Re-aligning Alt-text [118.29542883805405]
画像に関連付けられた既存のalt-textを編集・修正する鍵となるアイデアに基づいて、Altogetherの原理的なアプローチについて検討する。
トレーニングデータを生成するために、アノテータは既存のalt-textから始まり、それを複数のラウンドで画像コンテンツにアライメントする。
我々は、このデータに基づいて、大規模にアルトテキストを再調整するプロセスを一般化するキャプタを訓練する。
論文 参考訳(メタデータ) (2024-10-22T17:59:57Z) - Alt4Blind: A User Interface to Simplify Charts Alt-Text Creation [21.06366893637007]
グラフ画像の代替テキスト(Alt-Text)は、盲目や視覚障害のある人にグラフィックをアクセスできるようにするのに不可欠である。
最近のトレンドでは、Alt-Text生成にAIが使用されている。
セマンティックラベル付き高品質Alt-Textsを用いて,5,000個の実画像からなる新しいベンチマークを提案する。
我々は、同じ視覚的・テキスト的意味論を共有する類似のチャート画像のランク付けと検索を行う深層学習モデルを開発した。
論文 参考訳(メタデータ) (2024-05-29T14:19:57Z) - Visually-Aware Context Modeling for News Image Captioning [54.31708859631821]
News Image Captioningは、ニュース記事や画像からキャプションを作成することを目的としている。
より優れた名前埋め込みを学習するための顔命名モジュールを提案する。
私たちはCLIPを使用して、画像にセマンティックに近い文を検索します。
論文 参考訳(メタデータ) (2023-08-16T12:39:39Z) - NewsStories: Illustrating articles with visual summaries [49.924916589209374]
我々は,3300万記事,2200万画像,100万ビデオを含む大規模マルチモーダルデータセットを提案する。
現状の画像テキストアライメント手法は、複数の画像を持つ長い物語に対して堅牢ではないことを示す。
本稿では,GoodNewsデータセット上で,ゼロショット画像セット検索において,これらの手法を10%向上させる直感的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-07-26T17:34:11Z) - CIGLI: Conditional Image Generation from Language & Image [5.159265382427163]
我々はCIGLI: Conditional Image Generation from Language and Imageを提案する。
テキスト画像生成のようにテキストに基づいて画像を生成する代わりに、このタスクでは、テキスト記述と画像プロンプトから画像を生成する必要がある。
論文 参考訳(メタデータ) (2021-08-20T00:58:42Z) - Exploiting BERT For Multimodal Target SentimentClassification Through
Input Space Translation [75.82110684355979]
オブジェクト認識変換器を用いて入力空間内の画像を変換する2ストリームモデルを提案する。
次に、翻訳を利用して、言語モデルに多モーダル情報を提供する補助文を構築する。
2つのマルチモーダルTwitterデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-08-03T18:02:38Z) - NewsCLIPpings: Automatic Generation of Out-of-Context Multimodal Media [93.51739200834837]
画像とテキストの両方を操作できないが一致しないデータセットを提案する。
本稿では,字幕に適した画像の自動検索手法をいくつか紹介する。
当社の大規模自動生成NewsCLIPpingsデータセットは、両方のモダリティを共同分析するモデルを必要とします。
論文 参考訳(メタデータ) (2021-04-13T01:53:26Z) - Catching Out-of-Context Misinformation with Self-supervised Learning [2.435006380732194]
テキスト対とテキスト対を自動的に検出する新しい手法を提案する。
私たちのコアアイデアは、異なるソースから一致するキャプションを持つ画像のみを必要とする自己監督型のトレーニング戦略です。
本手法は82%のコンテキスト外検出精度を実現する。
論文 参考訳(メタデータ) (2021-01-15T19:00:42Z) - Text as Neural Operator: Image Manipulation by Text Instruction [68.53181621741632]
本稿では、複雑なテキスト命令を用いて複数のオブジェクトで画像を編集し、オブジェクトの追加、削除、変更を可能にする設定について検討する。
タスクの入力は、(1)参照画像を含むマルチモーダルであり、(2)所望の修正を記述した自然言語の命令である。
提案モデルは,最近の3つの公開データセットの強いベースラインに対して良好に動作することを示す。
論文 参考訳(メタデータ) (2020-08-11T07:07:10Z) - Deep Multimodal Image-Text Embeddings for Automatic Cross-Media
Retrieval [0.0]
視覚と言語表現を同時に学習するための,エンドツーエンドの深層マルチモーダル畳み込み再帰ネットワークを提案する。
このモデルは、どのペアがマッチ(正)か、どれがミスマッチ(負)かをヒンジベースの三重項ランキングを用いて学習する。
論文 参考訳(メタデータ) (2020-02-23T23:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。