論文の概要: #PraCegoVer: A Large Dataset for Image Captioning in Portuguese
- arxiv url: http://arxiv.org/abs/2103.11474v1
- Date: Sun, 21 Mar 2021 19:55:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-23 15:00:46.360043
- Title: #PraCegoVer: A Large Dataset for Image Captioning in Portuguese
- Title(参考訳): PraCegoVer: ポルトガル語で画像キャプチャ用の大規模なデータセット
- Authors: Gabriel Oliveira dos Santos and Esther Luna Colombini and Sandra Avila
- Abstract要約: PraCegoVerは、ポルトガル語で画像キャプションを自由に注釈付けした最初の大規模なデータセットである。
PraCegoVerと呼ばれる動きがインターネット上で発生し、ソーシャルメディアからユーザーを刺激して画像をパブリッシュし、#PraCegoVerにタグ付けし、コンテンツの簡単な説明を追加します。
- 参考スコア(独自算出の注目度): 6.890235464357029
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Automatically describing images using natural sentences is an important task
to support visually impaired people's inclusion onto the Internet. It is still
a big challenge that requires understanding the relation of the objects present
in the image and their attributes and actions they are involved in. Then,
visual interpretation methods are needed, but linguistic models are also
necessary to verbally describe the semantic relations. This problem is known as
Image Captioning. Although many datasets were proposed in the literature, the
majority contains only English captions, whereas datasets with captions
described in other languages are scarce. Recently, a movement called PraCegoVer
arose on the Internet, stimulating users from social media to publish images,
tag #PraCegoVer and add a short description of their content. Thus, inspired by
this movement, we have proposed the #PraCegoVer, a multi-modal dataset with
Portuguese captions based on posts from Instagram. It is the first large
dataset for image captioning in Portuguese with freely annotated images.
Further, the captions in our dataset bring additional challenges to the
problem: first, in contrast to popular datasets such as MS COCO Captions,
#PraCegoVer has only one reference to each image; also, both mean and variance
of our reference sentence length are significantly greater than those in the MS
COCO Captions. These two characteristics contribute to making our dataset
interesting due to the linguistic aspect and the challenges that it introduces
to the image captioning problem. We publicly-share the dataset at
https://github.com/gabrielsantosrv/PraCegoVer.
- Abstract(参考訳): 自然文を用いた画像の自動記述は、視覚障害者のインターネットへの関与を支援する重要な課題である。
画像に存在するオブジェクトと、それらが関与している属性とアクションの関係を理解する必要があるのは、依然として大きな課題です。
そして、視覚的解釈法が必要であるが、言語モデルも意味的関係を言語的に記述する必要がある。
この問題はイメージキャプションとして知られている。
文献では多くのデータセットが提案されたが、大多数は英語のキャプションのみを含んでおり、他の言語で記述されたキャプション付きデータセットは少ない。
近年、PraCegoVerと呼ばれるムーブメントがインターネット上で発生し、ユーザーはソーシャルメディアから画像のパブリッシュ、#PraCegoVerのタグ付け、コンテンツの短い説明を追加できるようになった。
この動きに触発されて、我々はinstagramの記事に基づいたポルトガル語のキャプションを含むマルチモーダルデータセットである#pracegoverを提案しました。
これはポルトガル語で画像キャプションを自由に注釈付けした最初の大規模なデータセットである。
第一に、MS COCO Captionsのような一般的なデータセットとは対照的に、#PraCegoVerは各画像への参照が1つしかない。
これらの2つの特徴は、画像キャプション問題に導入される言語的側面と課題により、データセットを興味深いものにするのに役立つ。
データセットはhttps://github.com/gabrielsantosrv/PraCegoVer.comで公開しています。
関連論文リスト
- An image speaks a thousand words, but can everyone listen? On image transcreation for cultural relevance [53.974497865647336]
われわれは、画像の翻訳を文化的に意味のあるものにするための第一歩を踏み出した。
タスクを行うために、最先端の生成モデルからなる3つのパイプラインを構築します。
我々は,翻訳画像の人間による評価を行い,文化的意義と保存の意味を評価する。
論文 参考訳(メタデータ) (2024-04-01T17:08:50Z) - Satellite Captioning: Large Language Models to Augment Labeling [0.0]
キャプションデータセットは、言語の違い、文法、そして人間がそれらを生成するのに要する時間により、はるかに難しい課題を示します。
現在のデータセットは確かに多くのインスタンスを扱えるが、キャプタがより限定的な語彙を持つ場合、問題となる。
本稿では,キャプションデータセットにおける潜在的な情報やコミュニケーションの欠陥の問題に対処することを目的とする。
論文 参考訳(メタデータ) (2023-12-18T03:21:58Z) - C-CLIP: Contrastive Image-Text Encoders to Close the
Descriptive-Commentative Gap [0.5439020425819]
画像とソーシャルメディア投稿のコメントの相互作用は、その全体的なメッセージを理解する上で非常に重要である。
マルチモーダル埋め込みモデル、すなわちCLIPの最近の進歩は、画像とテキストの関連性において大きな進歩をもたらした。
CLIPモデルの現在のトレーニング体制は、サイトや言語に関わらず、ソーシャルメディア上のコンテンツにマッチするには不十分である。
画像テキストエンコーダを明示的なコメント対でトレーニングすると,検索結果が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-09-06T19:03:49Z) - Visually-Aware Context Modeling for News Image Captioning [54.31708859631821]
News Image Captioningは、ニュース記事や画像からキャプションを作成することを目的としている。
より優れた名前埋め込みを学習するための顔命名モジュールを提案する。
私たちはCLIPを使用して、画像にセマンティックに近い文を検索します。
論文 参考訳(メタデータ) (2023-08-16T12:39:39Z) - Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。
DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文 参考訳(メタデータ) (2023-07-19T17:47:12Z) - NewsStories: Illustrating articles with visual summaries [49.924916589209374]
我々は,3300万記事,2200万画像,100万ビデオを含む大規模マルチモーダルデータセットを提案する。
現状の画像テキストアライメント手法は、複数の画像を持つ長い物語に対して堅牢ではないことを示す。
本稿では,GoodNewsデータセット上で,ゼロショット画像セット検索において,これらの手法を10%向上させる直感的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-07-26T17:34:11Z) - BAN-Cap: A Multi-Purpose English-Bangla Image Descriptions Dataset [0.5893124686141781]
Banglaのようなリソース制約のある言語は、標準データセットの欠如が主な原因で、焦点が当てられていない。
Flickr8kで広く使われているデータセットのBAN-Capに続き、資格アノテータが提供した画像のBanglaキャプションを収集する。
テキスト増強の効果について検討し,適応的注意に基づくモデルと文脈的単語置換(CWR)を用いたテキスト増強が,Bangla画像キャプションの最先端モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-28T15:39:09Z) - Who's Waldo? Linking People Across Text and Images [56.40556801773923]
人中心の視覚的接地のためのタスクとベンチマークデータセットを提案する。
我々の新しいタスクは、こうした画像キャプチャーペアで訓練された方法が文脈的手がかりに焦点を合わせるように、キャプション内の人々の名前をマスクする。
本稿では,このタスクにおけるいくつかの強いベースラインを上回り,トランスフォーマーに基づく手法を提案する。
論文 参考訳(メタデータ) (2021-08-16T17:36:49Z) - Pragmatic Issue-Sensitive Image Captioning [11.998287522410404]
課題感性画像キャプション(ISIC)を提案する。
ISICは、ターゲット画像とイシューを付与したキャプションシステムであり、関連する情報を特定する方法で分割された画像の集合である。
我々は,ISICが視覚質問応答の関連タスクを補完し,強化する方法について述べる。
論文 参考訳(メタデータ) (2020-04-29T20:00:53Z) - Transform and Tell: Entity-Aware News Image Captioning [77.4898875082832]
本稿では,ニュース記事に埋め込まれた画像のキャプションを生成するエンドツーエンドモデルを提案する。
画像中の顔や物体とキャプション内の単語を関連付けることで,マルチモーダル・マルチヘッドアテンション機構によって,最初の課題に対処する。
本稿では、バイトペアエンコーディングを用いて単語部分の列としてキャプションを生成する、最先端のトランスフォーマー言語モデルによる第2の課題に取り組む。
論文 参考訳(メタデータ) (2020-04-17T05:44:37Z) - Captioning Images Taken by People Who Are Blind [25.263950448575923]
VizWiz-Captionsは盲人から生まれた39,000以上の画像で構成されており、それぞれに5つのキャプションがある。
このデータセットを解析して,(1)典型的なキャプションを特徴付ける,(2)画像中のコンテンツの多様性を特徴付ける,(3)一般的な8つのビジョンデータセットと比較する。
論文 参考訳(メタデータ) (2020-02-20T04:36:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。