Fugu-MT 論文翻訳(概要): Violet: A Vision-Language Model for Arabic Image Captioning with Gemini Decoder

論文の概要: Violet: A Vision-Language Model for Arabic Image Captioning with Gemini Decoder

arxiv url: http://arxiv.org/abs/2311.08844v1
Date: Wed, 15 Nov 2023 10:34:14 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-16 16:20:39.524414
Title: Violet: A Vision-Language Model for Arabic Image Captioning with Gemini Decoder
Title（参考訳）: Violet:Gemini Decoderを使ったアラビア語画像キャプチャのための視覚言語モデル
Authors: Abdelrahman Mohamed, Fakhraddin Alwajih, El Moatez Billah Nagoudi, Alcides Alcoba Inciarte, Muhammad Abdul-Mageed
Abstract要約: 我々は、textitVioletと呼ばれるアラビア語専用の新しい視覚言語モデルを提示する。我々のモデルは、視覚と言語コンポーネントの融合を可能としつつ、生成の流速を維持できる視覚エンコーダとジェミニテキストデコーダに基づいている。
参考スコア（独自算出の注目度）: 33.02322812904631
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Although image captioning has a vast array of applications, it has not reached its full potential in languages other than English. Arabic, for instance, although the native language of more than 400 million people, remains largely underrepresented in this area. This is due to the lack of labeled data and powerful Arabic generative models. We alleviate this issue by presenting a novel vision-language model dedicated to Arabic, dubbed \textit{Violet}. Our model is based on a vision encoder and a Gemini text decoder that maintains generation fluency while allowing fusion between the vision and language components. To train our model, we introduce a new method for automatically acquiring data from available English datasets. We also manually prepare a new dataset for evaluation. \textit{Violet} performs sizeably better than our baselines on all of our evaluation datasets. For example, it reaches a CIDEr score of $61.2$ on our manually annotated dataset and achieves an improvement of $13$ points on Flickr8k.
Abstract（参考訳）: 画像キャプションには膨大な応用があるが、英語以外の言語ではまだ十分に活用されていない。例えば、アラビア語は4億人以上の住民の母国語であるが、この地域では多くが少数派である。これはラベル付きデータと強力なアラビア語生成モデルがないためである。我々は、アラビア語に特化した新しいビジョン言語モデル、 \textit{violet} を提示してこの問題を緩和する。我々のモデルは、視覚と言語コンポーネントの融合を可能としつつ、生成の流速を維持する視覚エンコーダとジェミニテキストデコーダに基づいている。モデルをトレーニングするために,利用可能な英語データセットからデータを自動的に取得する新しい手法を提案する。評価のための新しいデータセットも手作業で準備します。 \textit{Violet} は、評価データセットのすべてのベースラインよりも大幅にパフォーマンスが向上します。例えば、手動でアノテートしたデータセットでCIDErスコアが61.2ドルに達し、Flickr8kで13ドルポイントの改善を実現しています。

関連論文リスト

BLIP3-KALE: Knowledge Augmented Large-Scale Dense Captions [118.35194230865451]
BLIP3-KALEは2億1800万の画像テキストペアからなるデータセットである。 KALEは、合成高密度画像キャプションをWebスケールのalt-textで拡張し、事実上接地された画像キャプションを生成する。我々は、KALE上で視覚言語モデルを訓練し、視覚言語タスクの改善を示す。
論文参考訳（メタデータ） (2024-11-12T00:52:52Z)
Towards Zero-Shot Text-To-Speech for Arabic Dialects [16.10882912169842]
ZS-TTS (Zero-shot Multi-Speaker text-to-speech) システムは英語に進歩しているが、リソース不足のためまだ遅れている。まず、既存のデータセットを音声合成のニーズに合わせて適応させることにより、アラビア語のこのギャップに対処する。アラビア語の方言識別モデルを用いて、予め定義された方言ラベルが多言語環境でのZS-TTSモデルの改善に与える影響を探索する。
論文参考訳（メタデータ） (2024-06-24T15:58:15Z)
To Distill or Not to Distill? On the Robustness of Robust Knowledge Distillation [16.655022975392992]
現在の多言語ASRモデルは計算集約的であり、適切な総合的な評価を欠いている。我々は、大きな教師モデルからより効率的なより小さな学生の変種に知識を蒸留する。最もよく蒸留されたモデル全体の性能(45.0$% WER)は、SoTAモデルの2倍の大きさである。
論文参考訳（メタデータ） (2024-06-06T21:11:53Z)
Multilingual Diversity Improves Vision-Language Representations [66.41030381363244]
このデータセットの事前トレーニングは、ImageNet上で英語のみまたは英語が支配するデータセットを使用してパフォーマンスが向上する。 GeoDEのような地理的に多様なタスクでは、アフリカから得られる最大の利益とともに、すべての地域における改善も観察します。
論文参考訳（メタデータ） (2024-05-27T08:08:51Z)
The First Swahili Language Scene Text Detection and Recognition Dataset [55.83178123785643]
低リソース言語、特にスワヒリ語には大きなギャップがある。スワヒリ語は東アフリカ諸国で広く話されているが、依然としてシーンテキスト認識において未発見言語である。本研究では,スワヒリシーンのテキスト画像の包括的データセットを提案し,異なるシーンのテキスト検出および認識モデルに基づくデータセットの評価を行う。
論文参考訳（メタデータ） (2024-05-19T03:55:02Z)
Distilling Vision-Language Models on Millions of Videos [62.92789440875999]
合成した指導データを用いて,映像言語ベースラインから映像言語モデルを微調整する。ビデオインストラクションチューニング(VIIT)によって生成されたビデオモデルは、高品質なキャプションを生成するために何百万ものビデオの自動ラベル付けに使用される。副産物として、これまでで最大のビデオキャプションデータセットを生成します。
論文参考訳（メタデータ） (2024-01-11T18:59:53Z)
YFACC: A Yor\`ub\'a speech-image dataset for cross-lingual keyword localisation through visual grounding [21.51901080054713]
ナイジェリアで話されている真の低リソース言語であるYorub'aで、6kのFlickr画像のオーディオキャプションのデータセットを新たにリリースしました。我々は、注目に基づくVGSモデルをトレーニングし、画像に英語のビジュアルラベルをタグ付けし、Yorub'a 音声とペア付けする。これにより、言語間のキーワードのローカライゼーションが可能となり、Yorub'a言語で書かれた英語クエリが検出され、位置される。
論文参考訳（メタデータ） (2022-10-10T11:58:10Z)
cViL: Cross-Lingual Training of Vision-Language Models using Knowledge Distillation [6.381149074212897]
本稿では、英語のみの視覚言語モデルを用いて、対象言語に対する単言語モデルを訓練するパイプラインを提案する。日本語とヒンディー語で大規模な視覚的質問応答データセットをリリースする。我々のパイプラインは、それぞれ4.4%と13.4%の精度で現在の最先端モデルよりも優れています。
論文参考訳（メタデータ） (2022-06-07T14:46:30Z)
VidLanKD: Improving Language Understanding via Video-Distilled Knowledge Transfer [76.3906723777229]
言語理解を改善するためのビデオ言語知識蒸留法VidLanKDを提案する。我々は、ビデオテキストデータセット上でマルチモーダル教師モデルを訓練し、その知識をテキストデータセットを用いて学生言語モデルに伝達する。我々の実験では、VidLanKDはテキストのみの言語モデルや発声モデルよりも一貫した改善を実現している。
論文参考訳（メタデータ） (2021-07-06T15:41:32Z)
"Wikily" Neural Machine Translation Tailored to Cross-Lingual Tasks [20.837515947519524]
リンクされたウィキペディアページの最初の文とタイトル、およびクロスリンガル画像キャプションは、二言語辞書を抽出し、ウィキペディアからパラレルテキストをマイニングするためのクロスリンガル単語埋め込みを抽出するシードパラレルデータのための強力な信号である。画像キャプションでは、アラビア語の訓練データが英語のキャプションデータのウィキリー翻訳であるアラビア語と英語のマルチタスク機械翻訳と画像キャプションパイプラインを訓練する。アラビア語の字幕化の結果は、教師付きモデルよりも若干優れている。
論文参考訳（メタデータ） (2021-04-16T21:49:12Z)
Vokenization: Improving Language Understanding with Contextualized, Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文参考訳（メタデータ） (2020-10-14T02:11:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。