論文の概要: Violet: A Vision-Language Model for Arabic Image Captioning with Gemini
Decoder
- arxiv url: http://arxiv.org/abs/2311.08844v1
- Date: Wed, 15 Nov 2023 10:34:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 16:20:39.524414
- Title: Violet: A Vision-Language Model for Arabic Image Captioning with Gemini
Decoder
- Title(参考訳): Violet:Gemini Decoderを使ったアラビア語画像キャプチャのための視覚言語モデル
- Authors: Abdelrahman Mohamed, Fakhraddin Alwajih, El Moatez Billah Nagoudi,
Alcides Alcoba Inciarte, Muhammad Abdul-Mageed
- Abstract要約: 我々は、textitVioletと呼ばれるアラビア語専用の新しい視覚言語モデルを提示する。
我々のモデルは、視覚と言語コンポーネントの融合を可能としつつ、生成の流速を維持できる視覚エンコーダとジェミニテキストデコーダに基づいている。
- 参考スコア(独自算出の注目度): 33.02322812904631
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although image captioning has a vast array of applications, it has not
reached its full potential in languages other than English. Arabic, for
instance, although the native language of more than 400 million people, remains
largely underrepresented in this area. This is due to the lack of labeled data
and powerful Arabic generative models. We alleviate this issue by presenting a
novel vision-language model dedicated to Arabic, dubbed \textit{Violet}. Our
model is based on a vision encoder and a Gemini text decoder that maintains
generation fluency while allowing fusion between the vision and language
components. To train our model, we introduce a new method for automatically
acquiring data from available English datasets. We also manually prepare a new
dataset for evaluation. \textit{Violet} performs sizeably better than our
baselines on all of our evaluation datasets. For example, it reaches a CIDEr
score of $61.2$ on our manually annotated dataset and achieves an improvement
of $13$ points on Flickr8k.
- Abstract(参考訳): 画像キャプションには膨大な応用があるが、英語以外の言語ではまだ十分に活用されていない。
例えば、アラビア語は4億人以上の住民の母国語であるが、この地域では多くが少数派である。
これはラベル付きデータと強力なアラビア語生成モデルがないためである。
我々は、アラビア語に特化した新しいビジョン言語モデル、 \textit{violet} を提示してこの問題を緩和する。
我々のモデルは、視覚と言語コンポーネントの融合を可能としつつ、生成の流速を維持する視覚エンコーダとジェミニテキストデコーダに基づいている。
モデルをトレーニングするために,利用可能な英語データセットからデータを自動的に取得する新しい手法を提案する。
評価のための新しいデータセットも手作業で準備します。
\textit{Violet} は、評価データセットのすべてのベースラインよりも大幅にパフォーマンスが向上します。
例えば、手動でアノテートしたデータセットでCIDErスコアが61.2ドルに達し、Flickr8kで13ドルポイントの改善を実現しています。
関連論文リスト
- Distilling Vision-Language Models on Millions of Videos [62.92789440875999]
合成した指導データを用いて,映像言語ベースラインから映像言語モデルを微調整する。
ビデオインストラクションチューニング(VIIT)によって生成されたビデオモデルは、高品質なキャプションを生成するために何百万ものビデオの自動ラベル付けに使用される。
副産物として、これまでで最大のビデオキャプションデータセットを生成します。
論文 参考訳(メタデータ) (2024-01-11T18:59:53Z) - COSMO: COntrastive Streamlined MultimOdal Model with Interleaved
Pre-Training [119.03392147066093]
近年の自己回帰視覚言語モデルは, テキスト生成タスクでは優れているが, アライメントタスクでは課題に直面している。
テキスト生成モデルに対照的な損失を導入し,言語モデルを専用テキスト処理と適応型マルチモーダルデータ処理コンポーネントに分割する。
このギャップを埋めるために、この研究は、包括的なキャプションを備えた最初のインターリーブ付きビデオテキストデータセットであるVideoDatasetNameを導入した。
論文 参考訳(メタデータ) (2024-01-01T18:58:42Z) - Pixel Aligned Language Models [94.32841818609914]
我々は、位置を入力または出力として捉えることができる視覚言語モデルを開発した。
位置を入力として取ると、モデルが位置条件付きキャプションを実行し、指定対象または領域のキャプションを生成する。
本モデルでは,人間の注意を反映した画素単語対応キャプションを含むLocalized Narrative データセットを事前学習する。
論文 参考訳(メタデータ) (2023-12-14T18:57:58Z) - YFACC: A Yor\`ub\'a speech-image dataset for cross-lingual keyword
localisation through visual grounding [21.51901080054713]
ナイジェリアで話されている真の低リソース言語であるYorub'aで、6kのFlickr画像のオーディオキャプションのデータセットを新たにリリースしました。
我々は、注目に基づくVGSモデルをトレーニングし、画像に英語のビジュアルラベルをタグ付けし、Yorub'a 音声とペア付けする。
これにより、言語間のキーワードのローカライゼーションが可能となり、Yorub'a言語で書かれた英語クエリが検出され、位置される。
論文 参考訳(メタデータ) (2022-10-10T11:58:10Z) - cViL: Cross-Lingual Training of Vision-Language Models using Knowledge
Distillation [6.381149074212897]
本稿では、英語のみの視覚言語モデルを用いて、対象言語に対する単言語モデルを訓練するパイプラインを提案する。
日本語とヒンディー語で大規模な視覚的質問応答データセットをリリースする。
我々のパイプラインは、それぞれ4.4%と13.4%の精度で現在の最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2022-06-07T14:46:30Z) - BAN-Cap: A Multi-Purpose English-Bangla Image Descriptions Dataset [0.5893124686141781]
Banglaのようなリソース制約のある言語は、標準データセットの欠如が主な原因で、焦点が当てられていない。
Flickr8kで広く使われているデータセットのBAN-Capに続き、資格アノテータが提供した画像のBanglaキャプションを収集する。
テキスト増強の効果について検討し,適応的注意に基づくモデルと文脈的単語置換(CWR)を用いたテキスト増強が,Bangla画像キャプションの最先端モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-28T15:39:09Z) - VidLanKD: Improving Language Understanding via Video-Distilled Knowledge
Transfer [76.3906723777229]
言語理解を改善するためのビデオ言語知識蒸留法VidLanKDを提案する。
我々は、ビデオテキストデータセット上でマルチモーダル教師モデルを訓練し、その知識をテキストデータセットを用いて学生言語モデルに伝達する。
我々の実験では、VidLanKDはテキストのみの言語モデルや発声モデルよりも一貫した改善を実現している。
論文 参考訳(メタデータ) (2021-07-06T15:41:32Z) - "Wikily" Neural Machine Translation Tailored to Cross-Lingual Tasks [20.837515947519524]
リンクされたウィキペディアページの最初の文とタイトル、およびクロスリンガル画像キャプションは、二言語辞書を抽出し、ウィキペディアからパラレルテキストをマイニングするためのクロスリンガル単語埋め込みを抽出するシードパラレルデータのための強力な信号である。
画像キャプションでは、アラビア語の訓練データが英語のキャプションデータのウィキリー翻訳であるアラビア語と英語のマルチタスク機械翻訳と画像キャプションパイプラインを訓練する。
アラビア語の字幕化の結果は、教師付きモデルよりも若干優れている。
論文 参考訳(メタデータ) (2021-04-16T21:49:12Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z) - NABU $\mathrm{-}$ Multilingual Graph-based Neural RDF Verbalizer [3.419992814908564]
NABUは、RDFデータをドイツ語、ロシア語、英語に動詞化するグラフベースのニューラルモデルである。
以上の結果から,NABUは66.21BLEUで英語に対する最先端のアプローチよりも優れていた。
論文 参考訳(メタデータ) (2020-09-16T14:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。