論文の概要: Multi-Modal Image Captioning for the Visually Impaired
- arxiv url: http://arxiv.org/abs/2105.08106v1
- Date: Mon, 17 May 2021 18:35:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-20 03:50:24.747637
- Title: Multi-Modal Image Captioning for the Visually Impaired
- Title(参考訳): 視覚障害者のためのマルチモーダル画像キャプション
- Authors: Hiba Ahsan, Nikita Bhalla, Daivat Bhatt, Kaivankumar Shah
- Abstract要約: 盲目の人が自分の周囲を理解する方法の1つは、画像をクリックして、画像キャプションシステムによって生成された説明に頼ることです。
視覚障害者向けキャプション画像に関する現在の作業では、キャプション生成時に画像に存在するテキストデータを使用しない。
本研究では,最先端画像キャプションモデルであるaoanetを改良し,画像に検出されたテキストを入力特徴として活用することを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the ways blind people understand their surroundings is by clicking
images and relying on descriptions generated by image captioning systems.
Current work on captioning images for the visually impaired do not use the
textual data present in the image when generating captions. This problem is
critical as many visual scenes contain text. Moreover, up to 21% of the
questions asked by blind people about the images they click pertain to the text
present in them. In this work, we propose altering AoANet, a state-of-the-art
image captioning model, to leverage the text detected in the image as an input
feature. In addition, we use a pointer-generator mechanism to copy the detected
text to the caption when tokens need to be reproduced accurately. Our model
outperforms AoANet on the benchmark dataset VizWiz, giving a 35% and 16.2%
performance improvement on CIDEr and SPICE scores, respectively.
- Abstract(参考訳): 視覚障害者が自分の周囲を理解する方法の1つは、画像をクリックし、画像キャプションシステムによって生成された記述に依存することである。
視覚障害者向けキャプション画像に関する現在の作業では、キャプション生成時に画像に存在するテキストデータを使用しない。
多くの視覚シーンがテキストを含んでいるため、この問題は批判的です。
さらに、視覚障害者がクリックした画像に関する質問の最大21%は、その中のテキストに関するものである。
本研究では,現在最先端の画像キャプションモデルであるAoANetを変更し,画像から検出されたテキストを入力機能として活用することを提案する。
さらに,トークンを正確に再現する必要がある場合に,検出したテキストをキャプションにコピーするためにポインタジェネレータ機構を用いる。
我々のモデルはベンチマークデータセットのVizWizでAoANetより優れており、それぞれCIDErとSPICEのスコアで35%と16.2%のパフォーマンス改善を実現している。
関連論文リスト
- VCR: Visual Caption Restoration [80.24176572093512]
画像内の画素レベルのヒントを用いて、部分的に隠されたテキストを正確に復元するモデルに挑戦する視覚言語タスクであるVisual Caption Restoration (VCR)を導入する。
この課題は、画像に埋め込まれたテキストは、視覚、テキスト、および画像に埋め込まれたテキストのモダリティを整合させる必要があるため、共通の視覚要素や自然言語とは本質的に異なるという観察に由来する。
論文 参考訳(メタデータ) (2024-06-10T16:58:48Z) - Mining Fine-Grained Image-Text Alignment for Zero-Shot Captioning via
Text-Only Training [14.340740609933437]
そこで本研究では,モダリティギャップを低減するために,テキストのみのトレーニングを施したゼロショット画像キャプションフレームワークを提案する。
特に,地域情報を活用するためのサブリージョン機能アグリゲーションを導入する。
フレームワークを拡張してゼロショットのVQAパイプラインを構築し、その汎用性を実証します。
論文 参考訳(メタデータ) (2024-01-04T16:43:46Z) - Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。
DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文 参考訳(メタデータ) (2023-07-19T17:47:12Z) - Image Captioners Sometimes Tell More Than Images They See [8.640488282016351]
画像キャプション、つまり、"image-to-text"は、与えられた画像から記述テキストを生成する。
我々は、記述テキストのみからの画像の分類を含む実験を行った。
災害画像分類タスクであるCrisisNLPについて,いくつかの画像キャプションモデルの評価を行った。
論文 参考訳(メタデータ) (2023-05-04T15:32:41Z) - Revising Image-Text Retrieval via Multi-Modal Entailment [25.988058843564335]
多対多のマッチング現象は、広く使われている画像テキスト検索データセットで非常によく見られる。
文が画像と関連キャプションによって関連付けられているかどうかを判定するマルチモーダル・エンターメント分類器を提案する。
論文 参考訳(メタデータ) (2022-08-22T07:58:54Z) - NewsStories: Illustrating articles with visual summaries [49.924916589209374]
我々は,3300万記事,2200万画像,100万ビデオを含む大規模マルチモーダルデータセットを提案する。
現状の画像テキストアライメント手法は、複数の画像を持つ長い物語に対して堅牢ではないことを示す。
本稿では,GoodNewsデータセット上で,ゼロショット画像セット検索において,これらの手法を10%向上させる直感的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-07-26T17:34:11Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z) - TextCaps: a Dataset for Image Captioning with Reading Comprehension [56.89608505010651]
テキストは人間環境において一様であり、環境を理解するためにしばしば重要である。
画像のコンテキストにおけるテキストの理解方法を研究するために,新しいデータセットであるTextCapsを,28k画像用の145kキャプションで収集した。
我々のデータセットは、テキストを認識し、それをその視覚的コンテキストに関連付け、テキストのどの部分をコピーするか、言い換えるかを決定するモデルに挑戦する。
論文 参考訳(メタデータ) (2020-03-24T02:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。