論文の概要: Alt-Text with Context: Improving Accessibility for Images on Twitter
- arxiv url: http://arxiv.org/abs/2305.14779v2
- Date: Tue, 3 Oct 2023 23:01:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 18:44:00.516077
- Title: Alt-Text with Context: Improving Accessibility for Images on Twitter
- Title(参考訳): Alt-Text with Context: Twitter上の画像のアクセシビリティ改善
- Authors: Nikita Srivatsan, Sofia Samaniego, Omar Florez, Taylor
Berg-Kirkpatrick
- Abstract要約: 本稿では,ソーシャルメディア,特にTwitterで共有された画像のアルトテキスト記述を生成するアプローチを提案する。
Twitterに投稿された画像には、便利なコンテキストを提供するユーザ記述のテキストが添付されることが多い。
従来の作業では, BLEU@4で2倍以上に向上し, ツイートテキストと視覚情報の両方の条件付けのアプローチが著しく優れていた。
- 参考スコア(独自算出の注目度): 30.28576644504692
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work we present an approach for generating alternative text (or
alt-text) descriptions for images shared on social media, specifically Twitter.
More than just a special case of image captioning, alt-text is both more
literally descriptive and context-specific. Also critically, images posted to
Twitter are often accompanied by user-written text that despite not necessarily
describing the image may provide useful context that if properly leveraged can
be informative. We address this task with a multimodal model that conditions on
both textual information from the associated social media post as well as
visual signal from the image, and demonstrate that the utility of these two
information sources stacks. We put forward a new dataset of 371k images paired
with alt-text and tweets scraped from Twitter and evaluate on it across a
variety of automated metrics as well as human evaluation. We show that our
approach of conditioning on both tweet text and visual information
significantly outperforms prior work, by more than 2x on BLEU@4.
- Abstract(参考訳): 本研究では,ソーシャルメディア,特にTwitterで共有された画像に対して,代替テキスト(あるいはalt-text)記述を生成するアプローチを提案する。
画像キャプションの特別な場合だけでなく、alt-textは文字通り記述的でコンテキストに特有です。
また、Twitterに投稿された画像には、必ずしもその画像を記述する必要がなくても、適切に活用された場合、有益なコンテキストを提供する、ユーザ記述のテキストが添付されることが多い。
この課題をマルチモーダルモデルで解決し,関連するソーシャルメディア投稿からのテキスト情報と画像からの視覚信号の両方を条件とし,これら2つの情報ソースの有効性を示す。
私たちは、twitterから削除されたalt-textとつぶやきを組み合わせた371kの画像の新しいデータセットを作成し、さまざまな自動メトリクスと人的評価で評価しました。
従来の作業では, BLEU@4で2倍以上に向上し, ツイートテキストと視覚情報の両方の条件付けのアプローチが著しく優れていた。
関連論文リスト
- Image2Text2Image: A Novel Framework for Label-Free Evaluation of Image-to-Text Generation with Text-to-Image Diffusion Models [16.00576040281808]
本稿では,画像キャプションモデルを評価するための新しいフレームワークであるImage2Text2Imageを提案する。
高い類似度スコアは、このモデルが忠実なテキスト記述を生み出し、低いスコアは相違点を強調していることを示唆している。
本フレームワークは人手によるキャプション参照に依存しないので,画像キャプションモデルを評価する上で貴重なツールである。
論文 参考訳(メタデータ) (2024-11-08T17:07:01Z) - Altogether: Image Captioning via Re-aligning Alt-text [118.29542883805405]
画像に関連付けられた既存のalt-textを編集・修正する鍵となるアイデアに基づいて、Altogetherの原理的なアプローチについて検討する。
トレーニングデータを生成するために、アノテータは既存のalt-textから始まり、それを複数のラウンドで画像コンテンツにアライメントする。
我々は、このデータに基づいて、大規模にアルトテキストを再調整するプロセスを一般化するキャプタを訓練する。
論文 参考訳(メタデータ) (2024-10-22T17:59:57Z) - Alt4Blind: A User Interface to Simplify Charts Alt-Text Creation [21.06366893637007]
グラフ画像の代替テキスト(Alt-Text)は、盲目や視覚障害のある人にグラフィックをアクセスできるようにするのに不可欠である。
最近のトレンドでは、Alt-Text生成にAIが使用されている。
セマンティックラベル付き高品質Alt-Textsを用いて,5,000個の実画像からなる新しいベンチマークを提案する。
我々は、同じ視覚的・テキスト的意味論を共有する類似のチャート画像のランク付けと検索を行う深層学習モデルを開発した。
論文 参考訳(メタデータ) (2024-05-29T14:19:57Z) - Visually-Aware Context Modeling for News Image Captioning [54.31708859631821]
News Image Captioningは、ニュース記事や画像からキャプションを作成することを目的としている。
より優れた名前埋め込みを学習するための顔命名モジュールを提案する。
私たちはCLIPを使用して、画像にセマンティックに近い文を検索します。
論文 参考訳(メタデータ) (2023-08-16T12:39:39Z) - NewsStories: Illustrating articles with visual summaries [49.924916589209374]
我々は,3300万記事,2200万画像,100万ビデオを含む大規模マルチモーダルデータセットを提案する。
現状の画像テキストアライメント手法は、複数の画像を持つ長い物語に対して堅牢ではないことを示す。
本稿では,GoodNewsデータセット上で,ゼロショット画像セット検索において,これらの手法を10%向上させる直感的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-07-26T17:34:11Z) - CIGLI: Conditional Image Generation from Language & Image [5.159265382427163]
我々はCIGLI: Conditional Image Generation from Language and Imageを提案する。
テキスト画像生成のようにテキストに基づいて画像を生成する代わりに、このタスクでは、テキスト記述と画像プロンプトから画像を生成する必要がある。
論文 参考訳(メタデータ) (2021-08-20T00:58:42Z) - Exploiting BERT For Multimodal Target SentimentClassification Through
Input Space Translation [75.82110684355979]
オブジェクト認識変換器を用いて入力空間内の画像を変換する2ストリームモデルを提案する。
次に、翻訳を利用して、言語モデルに多モーダル情報を提供する補助文を構築する。
2つのマルチモーダルTwitterデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-08-03T18:02:38Z) - NewsCLIPpings: Automatic Generation of Out-of-Context Multimodal Media [93.51739200834837]
画像とテキストの両方を操作できないが一致しないデータセットを提案する。
本稿では,字幕に適した画像の自動検索手法をいくつか紹介する。
当社の大規模自動生成NewsCLIPpingsデータセットは、両方のモダリティを共同分析するモデルを必要とします。
論文 参考訳(メタデータ) (2021-04-13T01:53:26Z) - Catching Out-of-Context Misinformation with Self-supervised Learning [2.435006380732194]
テキスト対とテキスト対を自動的に検出する新しい手法を提案する。
私たちのコアアイデアは、異なるソースから一致するキャプションを持つ画像のみを必要とする自己監督型のトレーニング戦略です。
本手法は82%のコンテキスト外検出精度を実現する。
論文 参考訳(メタデータ) (2021-01-15T19:00:42Z) - Text as Neural Operator: Image Manipulation by Text Instruction [68.53181621741632]
本稿では、複雑なテキスト命令を用いて複数のオブジェクトで画像を編集し、オブジェクトの追加、削除、変更を可能にする設定について検討する。
タスクの入力は、(1)参照画像を含むマルチモーダルであり、(2)所望の修正を記述した自然言語の命令である。
提案モデルは,最近の3つの公開データセットの強いベースラインに対して良好に動作することを示す。
論文 参考訳(メタデータ) (2020-08-11T07:07:10Z) - Deep Multimodal Image-Text Embeddings for Automatic Cross-Media
Retrieval [0.0]
視覚と言語表現を同時に学習するための,エンドツーエンドの深層マルチモーダル畳み込み再帰ネットワークを提案する。
このモデルは、どのペアがマッチ(正)か、どれがミスマッチ(負)かをヒンジベースの三重項ランキングを用いて学習する。
論文 参考訳(メタデータ) (2020-02-23T23:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。