論文の概要: Cross-Lingual Cross-Modal Retrieval with Noise-Robust Learning
- arxiv url: http://arxiv.org/abs/2208.12526v1
- Date: Fri, 26 Aug 2022 09:32:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-29 13:23:37.121001
- Title: Cross-Lingual Cross-Modal Retrieval with Noise-Robust Learning
- Title(参考訳): ノイズロバスト学習による言語間クロスモーダル検索
- Authors: Yabing Wang, Jianfeng Dong, Tianxiang Liang, Minsong Zhang, Rui Cai,
Xun Wang
- Abstract要約: 低リソース言語に対するノイズローバストな言語間クロスモーダル検索手法を提案する。
低リソース言語のための擬似並列文ペアを構築するために,機械翻訳を用いる。
ノイズロスのターゲット言語表現を学習するための多視点自己蒸留法を提案する。
- 参考スコア(独自算出の注目度): 25.230786853723203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the recent developments in the field of cross-modal retrieval, there
has been less research focusing on low-resource languages due to the lack of
manually annotated datasets. In this paper, we propose a noise-robust
cross-lingual cross-modal retrieval method for low-resource languages. To this
end, we use Machine Translation (MT) to construct pseudo-parallel sentence
pairs for low-resource languages. However, as MT is not perfect, it tends to
introduce noise during translation, rendering textual embeddings corrupted and
thereby compromising the retrieval performance. To alleviate this, we introduce
a multi-view self-distillation method to learn noise-robust target-language
representations, which employs a cross-attention module to generate soft
pseudo-targets to provide direct supervision from the similarity-based view and
feature-based view. Besides, inspired by the back-translation in unsupervised
MT, we minimize the semantic discrepancies between origin sentences and
back-translated sentences to further improve the noise robustness of the
textual encoder. Extensive experiments are conducted on three video-text and
image-text cross-modal retrieval benchmarks across different languages, and the
results demonstrate that our method significantly improves the overall
performance without using extra human-labeled data. In addition, equipped with
a pre-trained visual encoder from a recent vision-and-language pre-training
framework, i.e., CLIP, our model achieves a significant performance gain,
showing that our method is compatible with popular pre-training models. Code
and data are available at https://github.com/HuiGuanLab/nrccr.
- Abstract(参考訳): クロスモーダル検索の分野における最近の進歩にもかかわらず、手動でアノテートされたデータセットがないため、低リソース言語にフォーカスする研究は少ない。
本稿では,低リソース言語を対象とした雑音ロバスト言語間クロスモーダル検索手法を提案する。
この目的のために、低リソース言語のための擬似並列文ペアを構築するために、機械翻訳(MT)を用いる。
しかし、MTは完全ではないため、翻訳中にノイズを導入し、テキスト埋め込みを劣化させ、検索性能を損なう傾向にある。
これを軽減するために,マルチビュー自己蒸留法を導入し,類似性に基づく視点と特徴に基づく視点から直接の監視を行うために,クロスアテンションモジュールを用いたノイズロスターゲット言語表現を学習する。
さらに、教師なしMTのバックトランスレーションにインスパイアされ、原文と裏書き文のセマンティックな相違を最小化し、テキストエンコーダのノイズロバスト性をさらに向上させる。
ビデオテキストと画像テキストのクロスモーダル検索ベンチマークを3つの異なる言語で実施し, 提案手法は, 追加の人間ラベルデータを用いることなく全体の性能を著しく向上することを示した。
さらに,最新のビジョン・アンド・ランゲージ事前学習フレームワークであるCLIPから,事前学習したビジュアルエンコーダを組み込むことにより,本手法が一般的な事前学習モデルと互換性を持つことを示す。
コードとデータはhttps://github.com/huiguanlab/nrccrで入手できる。
関連論文リスト
- Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - Optimal Transport Posterior Alignment for Cross-lingual Semantic Parsing [68.47787275021567]
言語間のセマンティックパーシングは、高いソース言語(例えば英語)から少ないトレーニングデータを持つ低リソース言語へのパーシング能力を伝達する。
そこで本稿では,最適輸送を用いた係り受け変数間の言語間相違を明示的に最小化することで,言語間セマンティック解析のための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-09T04:52:31Z) - Exploiting Multilingualism in Low-resource Neural Machine Translation
via Adversarial Learning [3.2258463207097017]
Generative Adversarial Networks (GAN) はニューラルマシン翻訳(NMT)に有望なアプローチを提供する
GANでは、バイリンガルモデルと同様に、マルチリンガルNTTはモデルトレーニング中に各文の参照翻訳を1つだけ考慮している。
本稿では,DAASI(Denoising Adversarial Auto-Encoder-based Sentence Interpolation)アプローチによる文計算を提案する。
論文 参考訳(メタデータ) (2023-03-31T12:34:14Z) - Low-resource Neural Machine Translation with Cross-modal Alignment [15.416659725808822]
そこで我々は,すべての言語で共有空間を学習するクロスモーダル・コントラスト学習法を提案する。
実験結果とさらなる解析により,少数の画像・テキスト・ペアによる相互・言語間のアライメントを効果的に学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-13T04:15:43Z) - Robustification of Multilingual Language Models to Real-world Noise with
Robust Contrastive Pretraining [14.087882550564169]
ノイズの多いデータに基づいてニューラルモデルのロバスト性を評価し,改良は英語に限られていることを示唆する。
事前訓練された多言語モデルの性能をベンチマークするために、5つの言語と4つのNLPタスクをカバーするノイズの多いデータセットを構築した。
本稿では,多言語事前学習モデルのゼロショット言語間ロバスト性を高めるために,ロバストコントラスト事前学習(RCP)を提案する。
論文 参考訳(メタデータ) (2022-10-10T15:40:43Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - Contrastive Learning for Context-aware Neural Machine TranslationUsing
Coreference Information [14.671424999873812]
ソース文と文脈文のコア参照に基づく新しいデータ拡張とコントラスト学習方式であるCorefCLを提案する。
コンテキスト文で検出されたコア参照の言及を自動的に破損させることで、CorefCLはコア参照の不整合に敏感なモデルをトレーニングすることができる。
実験では,英語・ドイツ語・韓国語タスクの比較モデルのBLEUを一貫して改善した。
論文 参考訳(メタデータ) (2021-09-13T05:18:47Z) - AlloST: Low-resource Speech Translation without Source Transcription [17.53382405899421]
言語に依存しないユニバーサル電話認識機能を利用する学習フレームワークを提案する。
このフレームワークは注意に基づくシーケンス・トゥ・シークエンスモデルに基づいている。
スペイン英語とタイギ・マンダリンのドラマ『コーポラ』で行った実験では、本手法がコンフォーメータベースのベースラインよりも優れていた。
論文 参考訳(メタデータ) (2021-05-01T05:30:18Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。