論文の概要: Bench-Marking And Improving Arabic Automatic Image Captioning Through
The Use Of Multi-Task Learning Paradigm
- arxiv url: http://arxiv.org/abs/2202.05474v1
- Date: Fri, 11 Feb 2022 06:29:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-15 04:28:40.511786
- Title: Bench-Marking And Improving Arabic Automatic Image Captioning Through
The Use Of Multi-Task Learning Paradigm
- Title(参考訳): マルチタスク学習パラダイムを用いたベンチマーキングとアラビア語自動画像キャプションの改善
- Authors: Muhy Eddin Za'ter, Bashar Talaftha
- Abstract要約: 本稿ではアラビア画像キャプションの性能を高める手法と手法について検討する。
マルチタスク学習と事前学習語埋め込みの使用により、画像キャプションの品質が著しく向上した。
しかし、提示された結果から、アラビア語の字幕化は、英語と比較してまだ遅れていることがわかる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The continuous increase in the use of social media and the visual content on
the internet have accelerated the research in computer vision field in general
and the image captioning task in specific. The process of generating a caption
that best describes an image is a useful task for various applications such as
it can be used in image indexing and as a hearing aid for the visually
impaired. In recent years, the image captioning task has witnessed remarkable
advances regarding both datasets and architectures, and as a result, the
captioning quality has reached an astounding performance. However, the majority
of these advances especially in datasets are targeted for English, which left
other languages such as Arabic lagging behind. Although Arabic language, being
spoken by more than 450 million people and being the most growing language on
the internet, lacks the fundamental pillars it needs to advance its image
captioning research, such as benchmarks or unified datasets. This works is an
attempt to expedite the synergy in this task by providing unified datasets and
benchmarks, while also exploring methods and techniques that could enhance the
performance of Arabic image captioning. The use of multi-task learning is
explored, alongside exploring various word representations and different
features. The results showed that the use of multi-task learning and
pre-trained word embeddings noticeably enhanced the quality of image
captioning, however the presented results shows that Arabic captioning still
lags behind when compared to the English language. The used dataset and code
are available at this link.
- Abstract(参考訳): ソーシャルメディアの利用の継続的な増加とインターネット上の視覚コンテンツは、コンピュータビジョン分野全般の研究を加速させ、画像キャプションタスクを具体化させている。
イメージを最もよく記述するキャプションを生成するプロセスは、画像インデクシングや視覚障害者の補聴器として使用できるなど、様々なアプリケーションにとって有用なタスクである。
近年、画像キャプションタスクは、データセットとアーキテクチャの両方に関して顕著な進歩をみせており、その結果、キャプションの品質は驚くべきパフォーマンスに達している。
しかし、特にデータセットにおけるこれらの進歩の大部分は英語をターゲットとしており、アラビア語などの他の言語は遅れている。
アラビア語は4億5000万人以上の人々が話し、インターネットで最も成長している言語だが、ベンチマークや統一データセットといった画像キャプション研究を進めるために必要な基本的な柱が欠けている。
これは、統一データセットとベンチマークを提供し、アラビア語の画像キャプションのパフォーマンスを向上させる方法や技術を探求することで、このタスクのシナジーを早める試みである。
マルチタスク学習の利用は、様々な単語表現と異なる特徴を探求しながら検討されている。
その結果,マルチタスク学習と事前学習語埋め込みは画像キャプションの質を著しく向上させたが,アラビア文字キャプションは英語と比較してまだ遅れていることがわかった。
使用されるデータセットとコードは、このリンクで利用できる。
関連論文リスト
- TRINS: Towards Multimodal Language Models that Can Read [61.17806538631744]
TRINSはText-RichイメージINStructionデータセットである。
39,153の画像、キャプション、102,437の質問が含まれている。
本稿では,画像中のテキスト内容の理解に長けたLanguage-vision Reading Assistant(LaRA)を提案する。
論文 参考訳(メタデータ) (2024-06-10T18:52:37Z) - Multilingual Diversity Improves Vision-Language Representations [66.41030381363244]
このデータセットの事前トレーニングは、ImageNet上で英語のみまたは英語が支配するデータセットを使用してパフォーマンスが向上する。
GeoDEのような地理的に多様なタスクでは、アフリカから得られる最大の利益とともに、すべての地域における改善も観察します。
論文 参考訳(メタデータ) (2024-05-27T08:08:51Z) - Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。
DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文 参考訳(メタデータ) (2023-07-19T17:47:12Z) - Retrieval-Augmented Transformer for Image Captioning [51.79146669195357]
我々は、kNNメモリを用いた画像キャプション手法を開発し、外部コーパスから知識を抽出して生成プロセスを支援する。
我々のアーキテクチャは、視覚的類似性に基づく知識検索と、識別可能なエンコーダと、トークンを予測するためにkNN拡張アテンション層を組み合わせる。
COCOデータセットで実施した実験結果は、明示的な外部メモリを利用することで、生成プロセスの助けとなり、キャプションの品質が向上することを示した。
論文 参考訳(メタデータ) (2022-07-26T19:35:49Z) - BAN-Cap: A Multi-Purpose English-Bangla Image Descriptions Dataset [0.5893124686141781]
Banglaのようなリソース制約のある言語は、標準データセットの欠如が主な原因で、焦点が当てられていない。
Flickr8kで広く使われているデータセットのBAN-Capに続き、資格アノテータが提供した画像のBanglaキャプションを収集する。
テキスト増強の効果について検討し,適応的注意に基づくモデルと文脈的単語置換(CWR)を用いたテキスト増強が,Bangla画像キャプションの最先端モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-28T15:39:09Z) - From Show to Tell: A Survey on Image Captioning [48.98681267347662]
視覚と言語を結びつけることは、ジェネレーティブ・インテリジェンスにおいて重要な役割を担っている。
画像キャプションの研究はまだ結論に達していない。
本研究の目的は,画像キャプション手法の包括的概要と分類を提供することである。
論文 参考訳(メタデータ) (2021-07-14T18:00:54Z) - UNISON: Unpaired Cross-lingual Image Captioning [17.60054750276632]
本稿では,ソースや対象言語の字幕コーパスに頼らずに画像キャプションを生成する,新たな非ペア型クロスランガル手法を提案する。
具体的には、2つのフェーズから構成される: (i) パラレル (bitext) コーパスを利用して、シーングラフ符号化空間内のソースからターゲット言語へのマッピングを学習し、ターゲット言語内の文をデコードする (ii) エンコードされたシーングラフの特徴を画像モダリティから言語モダリティへマッピングする (i) クロスモーダルな非教師なし特徴マッピングである。
論文 参考訳(メタデータ) (2020-10-03T06:14:06Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。