論文の概要: Captioning Images Taken by People Who Are Blind
- arxiv url: http://arxiv.org/abs/2002.08565v2
- Date: Wed, 15 Jul 2020 15:48:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 07:42:28.171672
- Title: Captioning Images Taken by People Who Are Blind
- Title(参考訳): 盲目の人が撮影したキャプション画像
- Authors: Danna Gurari, Yinan Zhao, Meng Zhang, Nilavra Bhattacharya
- Abstract要約: VizWiz-Captionsは盲人から生まれた39,000以上の画像で構成されており、それぞれに5つのキャプションがある。
このデータセットを解析して,(1)典型的なキャプションを特徴付ける,(2)画像中のコンテンツの多様性を特徴付ける,(3)一般的な8つのビジョンデータセットと比較する。
- 参考スコア(独自算出の注目度): 25.263950448575923
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While an important problem in the vision community is to design algorithms
that can automatically caption images, few publicly-available datasets for
algorithm development directly address the interests of real users. Observing
that people who are blind have relied on (human-based) image captioning
services to learn about images they take for nearly a decade, we introduce the
first image captioning dataset to represent this real use case. This new
dataset, which we call VizWiz-Captions, consists of over 39,000 images
originating from people who are blind that are each paired with five captions.
We analyze this dataset to (1) characterize the typical captions, (2)
characterize the diversity of content found in the images, and (3) compare its
content to that found in eight popular vision datasets. We also analyze modern
image captioning algorithms to identify what makes this new dataset challenging
for the vision community. We publicly-share the dataset with captioning
challenge instructions at https://vizwiz.org
- Abstract(参考訳): ビジョンコミュニティで重要な問題は、イメージを自動的にキャプションできるアルゴリズムを設計することだが、実際のユーザの関心に直接対処するアルゴリズム開発用のデータセットは、ほとんどない。
視覚障害者が(人間ベースの)画像キャプションサービスを使って10年近くかけて撮影した画像について学んだことを観察し、この実際のユースケースを表す最初の画像キャプションデータセットを紹介します。
今回のデータセットはVizWiz-Captionsと呼ばれ、視覚障害者が5つのキャプションを合わせた3万9000枚以上の画像で構成されています。
このデータセットを解析して,(1)典型的なキャプションを特徴付ける,(2)画像中のコンテンツの多様性を特徴付ける,(3)一般的な8つのビジョンデータセットと比較する。
また、最新の画像キャプションアルゴリズムを分析し、この新たなデータセットが視覚コミュニティに挑戦する理由を特定する。
データセットを公開し、https://vizwiz.orgで課題命令をキャプションで共有します。
関連論文リスト
- Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。
DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文 参考訳(メタデータ) (2023-07-19T17:47:12Z) - NewsStories: Illustrating articles with visual summaries [49.924916589209374]
我々は,3300万記事,2200万画像,100万ビデオを含む大規模マルチモーダルデータセットを提案する。
現状の画像テキストアライメント手法は、複数の画像を持つ長い物語に対して堅牢ではないことを示す。
本稿では,GoodNewsデータセット上で,ゼロショット画像セット検索において,これらの手法を10%向上させる直感的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-07-26T17:34:11Z) - LineCap: Line Charts for Data Visualization Captioning Models [6.3596637237946725]
LineCapは、3,528の数字からなる新しいフィギュアキャプションデータセットである。
我々は、このデータセットのキュレーションと、自動フィギュアキャプションのためのエンドツーエンドのディープラーニングモデルを用いた洞察を提供する。
論文 参考訳(メタデータ) (2022-07-15T00:35:59Z) - Towards Multimodal Vision-Language Models Generating Non-Generic Text [2.102846336724103]
視覚言語モデルは、画像内の視覚的コンテキストを評価し、記述的なテキストを生成することができる。
近年の研究では、画像から抽出したテキストで視覚情報を補うために光学文字認識が用いられている。
本研究では、画像から抽出できるが、現在のモデルでは使用されない付加的な情報から、視覚言語モデルが恩恵を受けることができると論じる。
論文 参考訳(メタデータ) (2022-07-09T01:56:35Z) - Who's Waldo? Linking People Across Text and Images [56.40556801773923]
人中心の視覚的接地のためのタスクとベンチマークデータセットを提案する。
我々の新しいタスクは、こうした画像キャプチャーペアで訓練された方法が文脈的手がかりに焦点を合わせるように、キャプション内の人々の名前をマスクする。
本稿では,このタスクにおけるいくつかの強いベースラインを上回り,トランスフォーマーに基づく手法を提案する。
論文 参考訳(メタデータ) (2021-08-16T17:36:49Z) - #PraCegoVer: A Large Dataset for Image Captioning in Portuguese [6.890235464357029]
PraCegoVerは、ポルトガル語で画像キャプションを自由に注釈付けした最初の大規模なデータセットである。
PraCegoVerと呼ばれる動きがインターネット上で発生し、ソーシャルメディアからユーザーを刺激して画像をパブリッシュし、#PraCegoVerにタグ付けし、コンテンツの簡単な説明を追加します。
論文 参考訳(メタデータ) (2021-03-21T19:55:46Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z) - TextCaps: a Dataset for Image Captioning with Reading Comprehension [56.89608505010651]
テキストは人間環境において一様であり、環境を理解するためにしばしば重要である。
画像のコンテキストにおけるテキストの理解方法を研究するために,新しいデータセットであるTextCapsを,28k画像用の145kキャプションで収集した。
我々のデータセットは、テキストを認識し、それをその視覚的コンテキストに関連付け、テキストのどの部分をコピーするか、言い換えるかを決定するモデルに挑戦する。
論文 参考訳(メタデータ) (2020-03-24T02:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。