論文の概要: Improving the Consistency in Cross-Lingual Cross-Modal Retrieval with 1-to-K Contrastive Learning
- arxiv url: http://arxiv.org/abs/2406.18254v1
- Date: Wed, 26 Jun 2024 11:04:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-27 13:49:09.601671
- Title: Improving the Consistency in Cross-Lingual Cross-Modal Retrieval with 1-to-K Contrastive Learning
- Title(参考訳): 1対Kのコントラスト学習による言語横断検索における一貫性の向上
- Authors: Zhijie Nie, Richong Zhang, Zhangchi Feng, Hailang Huang, Xudong Liu,
- Abstract要約: CCR(Cross-lingual Cross-modal Retrieval)は,Web検索において重要なタスクである。
本稿では,各言語を等しく扱う1対Kのコントラスト学習手法を提案する。
提案手法は,より小規模な事前学習データを用いて,リコール率と平均ランク変動(MRV)の両方を改善する。
- 参考スコア(独自算出の注目度): 23.54908503106691
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Cross-lingual Cross-modal Retrieval (CCR) is an essential task in web search, which aims to break the barriers between modality and language simultaneously and achieves image-text retrieval in the multi-lingual scenario with a single model. In recent years, excellent progress has been made based on cross-lingual cross-modal pre-training; particularly, the methods based on contrastive learning on large-scale data have significantly improved retrieval tasks. However, these methods directly follow the existing pre-training methods in the cross-lingual or cross-modal domain, leading to two problems of inconsistency in CCR: The methods with cross-lingual style suffer from the intra-modal error propagation, resulting in inconsistent recall performance across languages in the whole dataset. The methods with cross-modal style suffer from the inter-modal optimization direction bias, resulting in inconsistent rank across languages within each instance, which cannot be reflected by Recall@K. To solve these problems, we propose a simple but effective 1-to-K contrastive learning method, which treats each language equally and eliminates error propagation and optimization bias. In addition, we propose a new evaluation metric, Mean Rank Variance (MRV), to reflect the rank inconsistency across languages within each instance. Extensive experiments on four CCR datasets show that our method improves both recall rates and MRV with smaller-scale pre-trained data, achieving the new state-of-art.
- Abstract(参考訳): CCR(Cross-lingual Cross-modal Retrieval)は,モダリティと言語の間の障壁を同時に破壊し,複数言語シナリオにおける画像テキスト検索を単一モデルで実現することを目的として,Web検索において不可欠なタスクである。
近年,多言語横断型モーダル事前学習による優れた進歩が見られ,特に大規模データに対するコントラスト学習に基づく手法では,検索作業が大幅に改善されている。
しかし、これらの手法は、クロスランガルドメインやクロスモーダルドメインの既存の事前学習手法に直接従い、CCRにおける2つの不整合の問題をもたらす: クロスランガルスタイルの手法は、モーダル内エラーの伝搬に悩まされ、データセット全体の言語間での一貫性のないリコール性能をもたらす。
クロスモーダルなスタイルのメソッドは、モーダル間の最適化方向バイアスに悩まされ、結果として各インスタンス内の言語間で一貫性のないランクとなり、Recall@Kでは反映できない。
これらの問題を解決するために,各言語を等しく扱い,誤りの伝播や最適化バイアスを排除した,シンプルで効果的な1対Kのコントラスト学習法を提案する。
さらに,各インスタンス内の言語間でのランクの不整合を反映する評価指標として,平均ランク変動(MRV)を提案する。
4つのCCRデータセットの大規模な実験により、我々の手法はより小規模な事前学習データを用いてリコール率とMRVの両方を改善し、新しい最先端技術を実現する。
関連論文リスト
- CrossIn: An Efficient Instruction Tuning Approach for Cross-Lingual Knowledge Alignment [38.35458193262633]
英語中心のモデルは、通常他の言語では準最適である。
そこで本研究では,言語間命令チューニングデータの混合合成を利用したCrossInという新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-18T06:20:50Z) - CL2CM: Improving Cross-Lingual Cross-Modal Retrieval via Cross-Lingual
Knowledge Transfer [23.58317401302547]
本稿では,言語間移動を用いた視覚と対象言語間のアライメントを改善する汎用フレームワークCL2CMを提案する。
提案手法は,Multi30KとMSCOCOの2つの多言語画像テキストデータセットと,ビデオテキストデータセットVATEXである。
論文 参考訳(メタデータ) (2023-12-14T14:29:53Z) - Optimal Transport Posterior Alignment for Cross-lingual Semantic Parsing [68.47787275021567]
言語間のセマンティックパーシングは、高いソース言語(例えば英語)から少ないトレーニングデータを持つ低リソース言語へのパーシング能力を伝達する。
そこで本稿では,最適輸送を用いた係り受け変数間の言語間相違を明示的に最小化することで,言語間セマンティック解析のための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-09T04:52:31Z) - Zero-shot-Learning Cross-Modality Data Translation Through Mutual
Information Guided Stochastic Diffusion [5.795193288204816]
モダリティ間のデータ変換は、画像処理に大きな関心を集めている。
本稿では,MIDiffusion(Multual Information Diffusion Guided cross-modality data translation Model)という,教師なしゼロショット学習手法を提案する。
我々は,MIDiffusionの高度な性能を,有意な生成モデル群と比較して実証的に示す。
論文 参考訳(メタデータ) (2023-01-31T16:24:34Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - ConNER: Consistency Training for Cross-lingual Named Entity Recognition [96.84391089120847]
言語間の名前付きエンティティ認識は、対象言語のデータの不足に悩まされる。
言語間NERのための新しい一貫性トレーニングフレームワークとしてConNERを提案する。
論文 参考訳(メタデータ) (2022-11-17T07:57:54Z) - Bridging the Gap between Language Models and Cross-Lingual Sequence
Labeling [101.74165219364264]
大規模言語間事前学習言語モデル (xPLM) は、言語間シーケンスラベリングタスクにおいて有効であることを示す。
大きな成功にもかかわらず、事前学習と微調整の段階の間には訓練対象のギャップがあるという経験的観察を描いている。
本稿では,まず,言語間インフォーマティブ・スパン・マスキング(CLISM)と呼ばれるxSLのための事前学習タスクを設計し,目的のギャップを解消する。
第2に、コントラスト学習を利用して入力並列表現間の一貫性を促進するContrAstive-Consistency Regularization (CACR)を提案する。
論文 参考訳(メタデータ) (2022-04-11T15:55:20Z) - Multi-Level Contrastive Learning for Cross-Lingual Alignment [35.33431650608965]
マルチリンガルBERT(mBERT)のような言語間事前学習モデルは、様々な言語間下流のNLPタスクにおいて大きな性能を発揮している。
本稿では,事前学習モデルの言語間能力の向上を図るために,マルチレベルコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-26T07:14:20Z) - Towards Lifelong Learning of Multilingual Text-To-Speech Synthesis [87.75833205560406]
本研究は,多言語テキスト音声(TTS)システムを学習するための生涯学習手法を提案する。
すべての言語からプールされたデータを必要としないため、ストレージと計算の負担が軽減される。
論文 参考訳(メタデータ) (2021-10-09T07:00:38Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。