論文の概要: Towards Zero-shot Cross-lingual Image Retrieval and Tagging
- arxiv url: http://arxiv.org/abs/2109.07622v1
- Date: Wed, 15 Sep 2021 23:39:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-17 13:54:07.032555
- Title: Towards Zero-shot Cross-lingual Image Retrieval and Tagging
- Title(参考訳): ゼロショット言語間画像検索とタグ付けに向けて
- Authors: Pranav Aggarwal, Ritiz Tambi, Ajinkya Kale
- Abstract要約: テキスト側での言語間事前学習を用いたマルチモーダル表現学習のためのゼロショットアプローチを提案する。
クラウドソーシングプラットフォームを用いて収集した7言語に,新たに1Kの多言語MSCOCO2014キャプションテストデータセット(XTD10)を導入する。
また、多言語画像タグ付けのような下流タスクに対して、ゼロショット方式で言語間モデルをいかに使用できるかを実証する。
- 参考スコア(独自算出の注目度): 1.4425878137951236
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: There has been a recent spike in interest in multi-modal Language and Vision
problems. On the language side, most of these models primarily focus on English
since most multi-modal datasets are monolingual. We try to bridge this gap with
a zero-shot approach for learning multi-modal representations using
cross-lingual pre-training on the text side. We present a simple yet practical
approach for building a cross-lingual image retrieval model which trains on a
monolingual training dataset but can be used in a zero-shot cross-lingual
fashion during inference. We also introduce a new objective function which
tightens the text embedding clusters by pushing dissimilar texts away from each
other. For evaluation, we introduce a new 1K multi-lingual MSCOCO2014 caption
test dataset (XTD10) in 7 languages that we collected using a crowdsourcing
platform. We use this as the test set for zero-shot model performance across
languages. We also demonstrate how a cross-lingual model can be used for
downstream tasks like multi-lingual image tagging in a zero shot manner. XTD10
dataset is made publicly available here:
https://github.com/adobe-research/Cross-lingual-Test-Dataset-XTD10.
- Abstract(参考訳): マルチモーダル言語とビジョン問題に対する最近の関心が高まっている。
言語面では、ほとんどのモデルは主に英語に焦点を合わせており、多くのマルチモーダルデータセットは単言語である。
このギャップをゼロショットアプローチで橋渡しし,テキスト側での言語間事前学習を用いてマルチモーダル表現を学習する。
本稿では,単言語学習データセット上でトレーニングを行うが,ゼロショットのクロスリンガルモデルで使用することが可能な言語間画像検索モデルを構築するための,単純かつ実用的な手法を提案する。
また,異なるテキストを相互にプッシュすることで,テキスト埋め込みクラスタを強化できる新たな目的関数を導入する。
評価のために,クラウドソーシングプラットフォームを用いて収集した7言語で新たに1Kの多言語MSCOCO2014キャプションテストデータセット(XTD10)を導入する。
私たちはこれを、言語間のゼロショットモデルパフォーマンスのテストセットとして使用しています。
また、多言語画像タグ付けのような下流タスクに対して、ゼロショット方式で言語間モデルをいかに使用できるかを実証する。
XTD10データセットは、https://github.com/adobe-research/Cross-lingual-Test-Dataset-XTD10で公開されている。
関連論文リスト
- Stop Pre-Training: Adapt Visual-Language Models to Unseen Languages [3.3227703089509304]
本稿では,MPLM を用いた視覚言語事前学習を未確認言語に適用するための,シンプルかつ効率的なアプローチを提案する。
我々のアプローチでは画像入力は必要とせず、主に機械翻訳を使用し、ターゲット言語データを必要としない。
論文 参考訳(メタデータ) (2023-06-29T08:20:57Z) - XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented
Languages [105.54207724678767]
データ不足は、多言語NLPシステムの開発において重要な問題である。
我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。
XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文 参考訳(メタデータ) (2023-05-19T18:00:03Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - CrossSum: Beyond English-Centric Cross-Lingual Summarization for 1,500+
Language Pairs [27.574815708395203]
CrossSumは1500以上の言語対の1,68万記事要約サンプルからなる大規模言語間要約データセットである。
我々は、多言語抽象要約データセットからのクロス言語検索により、異なる言語で記述された並列記事の整列により、クロスサムを作成する。
対象言語における記事の要約が可能な言語間要約モデルを効果的に学習する多段階データサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-12-16T11:40:36Z) - Cross-lingual Intermediate Fine-tuning improves Dialogue State Tracking [84.50302759362698]
我々は、事前訓練された多言語モデルの中間微調整により、伝達学習プロセスを強化する。
我々は、パラレルおよび会話型の映画字幕データセットを使用して、言語間中間タスクを設計する。
パラレルなMultiWoZデータセットとMultilingual WoZデータセットの精度を20%向上させる。
論文 参考訳(メタデータ) (2021-09-28T11:22:38Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z) - Multilingual Multimodal Pre-training for Zero-Shot Cross-Lingual
Transfer of Vision-Language Models [144.85290716246533]
視覚言語モデルのゼロショット言語間移動について検討する。
本稿では,文脈化多言語マルチモーダル埋め込みを学習するトランスフォーマティブモデルを提案する。
論文 参考訳(メタデータ) (2021-03-16T04:37:40Z) - Towards Zero-shot Cross-lingual Image Retrieval [2.5110144299197716]
テキスト側での言語間事前学習を用いたマルチモーダル表現学習のためのゼロショットアプローチを提案する。
また、異なるテキストを互いにプッシュすることで、テキスト埋め込みクラスタを強化できる新たな目的関数も導入する。
これをテストセットとして、言語間でゼロショットモデルのパフォーマンスを評価するために使用します。
論文 参考訳(メタデータ) (2020-11-24T22:13:21Z) - XGLUE: A New Benchmark Dataset for Cross-lingual Pre-training,
Understanding and Generation [100.09099800591822]
XGLUEは、大規模な言語間の事前トレーニングモデルのトレーニングに使用できる、新しいベンチマークデータセットである。
XGLUEは、自然言語理解と生成シナリオの両方をカバーする、11の多様化されたタスクを提供する。
論文 参考訳(メタデータ) (2020-04-03T07:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。