Fugu-MT 論文翻訳(概要): Meta-learning For Vision-and-language Cross-lingual Transfer

論文の概要: Meta-learning For Vision-and-language Cross-lingual Transfer

arxiv url: http://arxiv.org/abs/2305.14843v2
Date: Tue, 24 Oct 2023 13:08:27 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-26 00:45:31.250992
Title: Meta-learning For Vision-and-language Cross-lingual Transfer
Title（参考訳）: 言語間視覚伝達のためのメタラーニング
Authors: Hanxu Hu, Frank Keller
Abstract要約: バイソン言語モデルのための新しいメタラーニング微調整フレームワークを提案する。我々のフレームワークは、現在のPVLMを視覚言語シナリオにおける新しい言語に迅速に適応させる。本手法は, ゼロショットと少数ショットのクロスランガル転送において, 現在のPVLMの性能を向上させる。
参考スコア（独自算出の注目度）: 14.594704809280984
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Current pre-trained vison-language models (PVLMs) achieve excellent performance on a range of multi-modal datasets. Recent work has aimed at building multilingual models, and a range of novel multilingual multi-modal datasets have been proposed. Current PVLMs typically perform poorly on these datasets when used for multi-modal zero-shot or few-shot cross-lingual transfer, especially for low-resource languages. To alleviate this problem, we propose a novel meta-learning fine-tuning framework. Our framework makes current PVLMs rapidly adaptive to new languages in vision-language scenarios by designing MAML in a cross-lingual multi-modal manner. Experiments show that our method boosts the performance of current state-of-the-art PVLMs in both zero-shot and few-shot cross-lingual transfer on a range of vision-language understanding tasks and datasets (XVNLI, xGQA, MaRVL, xFlicker&Co)
Abstract（参考訳）: 現在のvison-Language Model (PVLM) は、様々なマルチモーダルデータセットにおいて優れた性能を発揮する。近年,多言語モデルの構築を目的とした研究が行われ,多言語多モーダルデータセットが提案されている。現在のpvlmは、マルチモーダルなゼロショットや少数ショットのクロスリンガル転送、特に低リソース言語で使用される場合、これらのデータセットでパフォーマンスが悪い。この問題を解決するために,新しいメタ学習型微調整フレームワークを提案する。本フレームワークは,mamlを言語間マルチモーダルで設計することにより,視覚言語シナリオにおける新しい言語に迅速に適応する。 XVNLI, xGQA, MARVL, xFlicker&Co) の視覚言語理解タスクおよびデータセットにおける, ゼロショットおよび少数ショットの言語間移動における現在のPVLMの性能を向上させる実験を行った。

関連論文リスト

LUSIFER: Language Universal Space Integration for Enhanced Multilingual Embeddings with Large Language Models [89.13128402847943]
LUSIFERは,LLMをベースとした多言語タスクの埋め込みモデルに,多言語監視を必要とせずに適用可能なゼロショット方式である。 LUSIFERのアーキテクチャは多言語エンコーダを組み、言語ユニバーサル学習者として機能し、埋め込み固有のタスクに最適化されたLLMベースの埋め込みモデルと組み合わせている。 5つの主要な埋め込みタスク、123の多様なデータセット、14言語にわたるカバレッジを含む新しいベンチマークを導入する。
論文参考訳（メタデータ） (2025-01-01T15:43:07Z)
P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
大きな言語モデル(LLM)は、翻訳、コード生成、推論といったタスクにまたがる様々な多言語機能を示す。以前の評価では、その範囲を基本自然言語処理(NLP)や、独立した機能固有のタスクに制限することが多かった。我々は、これらのベンチマークの有用性に関する以前の研究の監視に対処するため、大規模ベンチマークから利用可能な、合理的なベンチマークを選択するパイプラインを提案する。本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval。
論文参考訳（メタデータ） (2024-11-14T01:29:36Z)
SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models [97.40590590880144]
MLLM(Multimodality Large Language Model)シリーズを開発した。我々は、言語、ビジョン、視覚言語タスクで利用可能なリソースを網羅した包括的なデータセットを組み立てる。パラメータサイズや多言語能力の異なるMLLMのスペクトルを得る。
論文参考訳（メタデータ） (2024-02-08T18:59:48Z)
Multilingual Multimodal Learning with Machine Translated Text [27.7207234512674]
英語のマルチモーダルデータの機械翻訳が、容易に利用できる多言語データの欠如を抑えるための効果的なプロキシとなるかどうかを考察する。得られたデータセットからそのような翻訳を自動的に除去する2つの指標を提案する。 In experiment on five task across 20 languages in the IGLUE benchmark, we show that translated data can provide a useful signal for multilingual multimodal learning。
論文参考訳（メタデータ） (2022-10-24T11:41:20Z)
Generalizing Multimodal Pre-training into Multilingual via Language Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文参考訳（メタデータ） (2022-05-29T08:53:22Z)
Cross-Lingual Text Classification with Multilingual Distillation and Zero-Shot-Aware Training [21.934439663979663]
多言語事前学習言語モデル(MPLM)に基づくマルチブランチ多言語言語モデル(MBLM) 教師学習フレームワークを用いた高性能単言語モデルからの知識の伝達に基づく方法 2つの言語横断型分類タスクの結果から,MPLMの教師付きデータのみを用いることで,教師付き性能とゼロショット性能が向上することが示された。
論文参考訳（メタデータ） (2022-02-28T09:51:32Z)
xGQA: Cross-Lingual Visual Question Answering [100.35229218735938]
xGQAは視覚的質問応答タスクのための新しい多言語評価ベンチマークである。確立された英語GQAデータセットを7言語に拡張する。本稿では,マルチモーダルトランスフォーマーモデルに適応するアダプタベースの新しいアプローチを提案する。
論文参考訳（メタデータ） (2021-09-13T15:58:21Z)
UC2: Universal Cross-lingual Cross-modal Vision-and-Language Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。 Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文参考訳（メタデータ） (2021-04-01T08:30:53Z)
UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文参考訳（メタデータ） (2020-12-31T11:37:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。