論文の概要: Curriculum Script Distillation for Multilingual Visual Question
Answering
- arxiv url: http://arxiv.org/abs/2301.07227v1
- Date: Tue, 17 Jan 2023 23:55:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-19 17:23:18.320573
- Title: Curriculum Script Distillation for Multilingual Visual Question
Answering
- Title(参考訳): 多言語視覚質問応答のためのカリキュラムスクリプト蒸留
- Authors: Khyathi Raghavi Chandu, Alborz Geramifard
- Abstract要約: 下流タスクの学習済みモデルを微調整するために、ソースとターゲット言語翻訳に基づくカリキュラムを導入する。
同一のスクリプトを共有するターゲット言語は、他の言語よりもパフォーマンスが(6%)良いことを示す。
- 参考スコア(独自算出の注目度): 10.721189858694396
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained models with dual and cross encoders have shown remarkable success
in propelling the landscape of several tasks in vision and language in Visual
Question Answering (VQA). However, since they are limited by the requirements
of gold annotated data, most of these advancements do not see the light of day
in other languages beyond English. We aim to address this problem by
introducing a curriculum based on the source and target language translations
to finetune the pre-trained models for the downstream task. Experimental
results demonstrate that script plays a vital role in the performance of these
models. Specifically, we show that target languages that share the same script
perform better (~6%) than other languages and mixed-script code-switched
languages perform better than their counterparts (~5-12%).
- Abstract(参考訳): デュアルエンコーダとクロスエンコーダを併用した事前学習モデルでは,ビジュアル質問応答(VQA)における視覚と言語におけるいくつかのタスクのランドスケープを推し進めることに成功した。
しかし、ゴールドアノテートされたデータの要求によって制限されているため、これらの進歩のほとんどは英語以外の言語では日の出を見ることができない。
我々は、下流タスクの学習済みモデルを微調整するために、ソースとターゲット言語翻訳に基づくカリキュラムを導入することで、この問題に対処することを目指している。
実験の結果,これらのモデルの性能においてスクリプトが重要な役割を担っていることが示された。
具体的には、同じスクリプトを共有するターゲット言語が他の言語よりも良く(約6%)、混合スクリプトでコード交換された言語の方が同等(約5-12%)であることを示す。
関連論文リスト
- Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。
本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T08:59:24Z) - TransliCo: A Contrastive Learning Framework to Address the Script Barrier in Multilingual Pretrained Language Models [50.40191599304911]
本稿では,mPLM を微調整する TransliCo を提案する。
Furinaは様々なゼロショット・クロスリンガル・トランスファータスクにおいてオリジナルのGlot500-mより優れていることを示す。
論文 参考訳(メタデータ) (2024-01-12T15:12:48Z) - Stop Pre-Training: Adapt Visual-Language Models to Unseen Languages [3.3227703089509304]
本稿では,MPLM を用いた視覚言語事前学習を未確認言語に適用するための,シンプルかつ効率的なアプローチを提案する。
我々のアプローチでは画像入力は必要とせず、主に機械翻訳を使用し、ターゲット言語データを必要としない。
論文 参考訳(メタデータ) (2023-06-29T08:20:57Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - cViL: Cross-Lingual Training of Vision-Language Models using Knowledge
Distillation [6.381149074212897]
本稿では、英語のみの視覚言語モデルを用いて、対象言語に対する単言語モデルを訓練するパイプラインを提案する。
日本語とヒンディー語で大規模な視覚的質問応答データセットをリリースする。
我々のパイプラインは、それぞれ4.4%と13.4%の精度で現在の最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2022-06-07T14:46:30Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - Towards Developing a Multilingual and Code-Mixed Visual Question
Answering System by Knowledge Distillation [20.33235443471006]
本稿では,英語ビジョンモデル(教師)を,等しく効果的な多言語・コード混合モデル(学生)に拡張する知識蒸留手法を提案する。
また、大規模な多言語およびコード混合VQAデータセットを11の異なる言語セットアップで作成します。
実験結果と深部分析により,11種類の言語セットアップ上で,事前学習した言語ビジョンモデルに対して提案したVQAモデルの有効性が示された。
論文 参考訳(メタデータ) (2021-09-10T03:47:29Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。