論文の概要: MURAL: Multimodal, Multitask Retrieval Across Languages
- arxiv url: http://arxiv.org/abs/2109.05125v1
- Date: Fri, 10 Sep 2021 22:26:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-14 16:16:18.615160
- Title: MURAL: Multimodal, Multitask Retrieval Across Languages
- Title(参考訳): muraL: 言語横断のマルチモーダル、マルチタスク検索
- Authors: Aashi Jain, Mandy Guo, Krishna Srinivasan, Ting Chen, Sneha Kudugunta,
Chao Jia, Yinfei Yang, Jason Baldridge
- Abstract要約: muraLは、画像テキストマッチングと翻訳ペアマッチングという2つのタスクを解決するデュアルエンコーダである。
数十億の翻訳ペアを組み込むことで、MuraL は ALIGN (Jia et al. PMLR'21) を拡張する。
アンダーリソース言語の性能は大幅に向上し、テキストテキスト学習はこれらの言語に対する画像キャプチャの多用性を克服できることを示した。
- 参考スコア(独自算出の注目度): 14.323816604663053
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Both image-caption pairs and translation pairs provide the means to learn
deep representations of and connections between languages. We use both types of
pairs in MURAL (MUltimodal, MUltitask Representations Across Languages), a dual
encoder that solves two tasks: 1) image-text matching and 2) translation pair
matching. By incorporating billions of translation pairs, MURAL extends ALIGN
(Jia et al. PMLR'21)--a state-of-the-art dual encoder learned from 1.8 billion
noisy image-text pairs. When using the same encoders, MURAL's performance
matches or exceeds ALIGN's cross-modal retrieval performance on well-resourced
languages across several datasets. More importantly, it considerably improves
performance on under-resourced languages, showing that text-text learning can
overcome a paucity of image-caption examples for these languages. On the
Wikipedia Image-Text dataset, for example, MURAL-base improves zero-shot mean
recall by 8.1% on average for eight under-resourced languages and by 6.8% on
average when fine-tuning. We additionally show that MURAL's text
representations cluster not only with respect to genealogical connections but
also based on areal linguistics, such as the Balkan Sprachbund.
- Abstract(参考訳): イメージキャプションペアと翻訳ペアの両方が、言語間の深い表現と接続を学ぶ手段を提供する。
我々は2つのタスクを解決するデュアルエンコーダであるプロジェクション(言語間のマルチモーダル、マルチタスク表現)において、両方のペアを使用する。
1)画像テキストマッチング
2) 翻訳ペアマッチング。
数十億の翻訳ペアを組み込むことで、壁画は18億のノイズの多い画像テキストペアから学んだ最先端のデュアルエンコーダであるアライメント(jia et al. pmlr'21)を拡張する。
同じエンコーダを使用する場合、MALLのパフォーマンスは、複数のデータセットにまたがるよくリソースされた言語上でのALIGNのクロスモーダル検索性能と一致またはオーバーする。
さらに重要なのは、アンダーリソース言語のパフォーマンスが大幅に向上し、テキストテキスト学習がこれらの言語に対する画像キャプチャの多用性を克服できることである。
例えばwikipediaのイメージテキストデータセットでは、ゼロショット平均リコールを8つの非ソース言語で平均8.1%、微調整時に平均6.8%改善している。
さらに, 村Lのテキスト表現が系譜関係だけでなく, バルカン・スプラチバンドのようなアラル言語にも基づいていることを示す。
関連論文リスト
- UMBCLU at SemEval-2024 Task 1A and 1C: Semantic Textual Relatedness with and without machine translation [0.09208007322096534]
SemEval-2024 Task 1の目的は、2つの文間の意味的テキスト関連性を特定するモデルを開発することである。
教師付きおよび言語間設定のための2つのSTRモデル、textitTranSem$ と $textitFineSem$ を開発します。
論文 参考訳(メタデータ) (2024-02-20T05:46:29Z) - M2-Encoder: Advancing Bilingual Image-Text Understanding by Large-scale
Efficient Pretraining [26.262677587795242]
我々は、60億以上の画像テキストペアを持つ包括的バイリンガルデータセットBM-6Bを導入する。
このようなデータセットのスケールを扱うために,画像テキストのコントラッシブな損失計算のためのグループ集約手法を提案する。
BM-6B上での細粒度理解能力を向上したバイリンガル画像テキスト基盤モデルの事前訓練を行う。
論文 参考訳(メタデータ) (2024-01-29T05:43:33Z) - Improving fine-grained understanding in image-text pre-training [37.163228122323865]
SPARse Fine-fine Contrastive Alignment (SPARC) は、画像とテキストのペアからよりきめ細かなマルチモーダル表現を事前学習する簡単な方法である。
粗い情報に依存した画像レベルのタスクに対して、競合するアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-18T10:28:45Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages [76.35234803589412]
MPMは、英語以外の言語で大規模なマルチモーダルモデルを訓練するための効果的な訓練パラダイムである。
画像・テキスト・テキスト・画像生成における大規模なマルチモーダルモデルVisCPMを構築し,中国語の最先端(オープンソース)性能を実現する。
論文 参考訳(メタデータ) (2023-08-23T09:55:41Z) - Babel-ImageNet: Massively Multilingual Evaluation of Vision-and-Language Representations [53.89380284760555]
Babel-ImageNetは,100言語へのイメージネットラベルの部分的翻訳を提供する,多言語ベンチマークである。
我々は,11の公開多言語CLIPモデルをベンチマークで評価し,イングリッシュイメージネットの性能と高ソース言語との差を顕著に示した。
パラメータ効率のよい言語特化学習を行う低リソース言語に対して,多言語CLIPの性能を劇的に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-06-14T17:53:06Z) - Does Transliteration Help Multilingual Language Modeling? [0.0]
多言語言語モデルに対する音訳の効果を実証的に測定する。
私たちは、世界で最もスクリプトの多様性が高いIndic言語にフォーカスしています。
比較的高いソースコード言語に悪影響を及ぼすことなく、低リソース言語にトランスリテラゼーションが有効であることに気付きました。
論文 参考訳(メタデータ) (2022-01-29T05:48:42Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - Practical Comparable Data Collection for Low-Resource Languages via
Images [126.64069379167975]
本稿では,モノリンガルアノテータを用いた低リソース言語のための高品質な同等のトレーニングデータをキュレートする手法を提案する。
本手法では, ソースとターゲット言語間のピボットとして, 慎重に選択した画像の集合を用いて, 両方の言語でその画像のキャプションを独立に取得する。
本手法で作成した英ヒンディー語対応コーパスの人間による評価では、対の81.1%が許容される翻訳であり、対の2.47%が全く翻訳ではない。
論文 参考訳(メタデータ) (2020-04-24T19:30:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。