論文の概要: Meta-Learning For Vision-and-Language Cross-lingual Transfer
- arxiv url: http://arxiv.org/abs/2305.14843v1
- Date: Wed, 24 May 2023 07:51:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 18:32:53.944587
- Title: Meta-Learning For Vision-and-Language Cross-lingual Transfer
- Title(参考訳): 言語間視覚伝達のためのメタラーニング
- Authors: Hanxu Hu, Frank Keller
- Abstract要約: 事前訓練されたビゾン言語モデル (PVLM) は、様々なマルチモーダルデータセットにおいて優れた性能を発揮する。
最近の研究は多言語モデルの構築を目的としており、新しい多言語多モーダルデータセットが提案されている。
視覚言語シナリオにおいて,現在のPVLMを新しい言語に迅速に適応させる新しいメタラーニング微調整フレームワークを提案する。
- 参考スコア(独自算出の注目度): 14.257122941518482
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current pre-trained vison-language models (PVLMs) achieve excellent
performance on a range of multi-modal datasets. Recent work has aimed at
building multilingual models, and a range of novel multilingual multi-modal
datasets have been proposed. Current PVLMs typically perform poorly on these
datasets when used for multi-modal zero-shot or few-shot cross-lingual
transfer, especially for low-resource languages. To alleviate this problem, we
propose a novel meta-learning fine-tuning framework. Our framework makes
current PVLMs rapidly adaptive to new languages in vision-language scenarios by
designing MAML in a cross-lingual multi-modal manner. Experiments show that our
method boosts the performance of current state-of-the-art PVLMs in both
zero-shot and few-shot cross-lingual transfer on a range of vision-language
understanding tasks and datasets (XVNLI, xGQA, MaRVL, xFlicker&Co
- Abstract(参考訳): 現在のvison-Language Model (PVLM) は、様々なマルチモーダルデータセットにおいて優れた性能を発揮する。
近年,多言語モデルの構築を目的とした研究が行われ,多言語多モーダルデータセットが提案されている。
現在のpvlmは、マルチモーダルなゼロショットや少数ショットのクロスリンガル転送、特に低リソース言語で使用される場合、これらのデータセットでパフォーマンスが悪い。
この問題を解決するために,新しいメタ学習型微調整フレームワークを提案する。
本フレームワークは,mamlを言語間マルチモーダルで設計することにより,視覚言語シナリオにおける新しい言語に迅速に適応する。
XVNLI, xGQA, MARVL, xFlicker&Co の視覚言語理解タスクおよびデータセットにおけるゼロショットおよび少数ショットの言語間移動における現在のPVLMの性能を向上させる実験を行った。
関連論文リスト
- SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models [97.40590590880144]
MLLM(Multimodality Large Language Model)シリーズを開発した。
我々は、言語、ビジョン、視覚言語タスクで利用可能なリソースを網羅した包括的なデータセットを組み立てる。
パラメータサイズや多言語能力の異なるMLLMのスペクトルを得る。
論文 参考訳(メタデータ) (2024-02-08T18:59:48Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z) - Multilingual Multimodal Learning with Machine Translated Text [27.7207234512674]
英語のマルチモーダルデータの機械翻訳が、容易に利用できる多言語データの欠如を抑えるための効果的なプロキシとなるかどうかを考察する。
得られたデータセットからそのような翻訳を自動的に除去する2つの指標を提案する。
In experiment on five task across 20 languages in the IGLUE benchmark, we show that translated data can provide a useful signal for multilingual multimodal learning。
論文 参考訳(メタデータ) (2022-10-24T11:41:20Z) - Generalizing Multimodal Pre-training into Multilingual via Language
Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。
この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。
単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-29T08:53:22Z) - Cross-Lingual Text Classification with Multilingual Distillation and
Zero-Shot-Aware Training [21.934439663979663]
多言語事前学習言語モデル(MPLM)に基づくマルチブランチ多言語言語モデル(MBLM)
教師学習フレームワークを用いた高性能単言語モデルからの知識の伝達に基づく方法
2つの言語横断型分類タスクの結果から,MPLMの教師付きデータのみを用いることで,教師付き性能とゼロショット性能が向上することが示された。
論文 参考訳(メタデータ) (2022-02-28T09:51:32Z) - xGQA: Cross-Lingual Visual Question Answering [100.35229218735938]
xGQAは視覚的質問応答タスクのための新しい多言語評価ベンチマークである。
確立された英語GQAデータセットを7言語に拡張する。
本稿では,マルチモーダルトランスフォーマーモデルに適応するアダプタベースの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-09-13T15:58:21Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。