論文の概要: CL2CM: Improving Cross-Lingual Cross-Modal Retrieval via Cross-Lingual
Knowledge Transfer
- arxiv url: http://arxiv.org/abs/2312.08984v2
- Date: Thu, 1 Feb 2024 04:53:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 18:36:40.951016
- Title: CL2CM: Improving Cross-Lingual Cross-Modal Retrieval via Cross-Lingual
Knowledge Transfer
- Title(参考訳): cl2cm: 言語間知識伝達による言語間クロスモーダル検索の改善
- Authors: Yabing Wang and Fan Wang and Jianfeng Dong and Hao Luo
- Abstract要約: 本稿では,言語間移動を用いた視覚と対象言語間のアライメントを改善する汎用フレームワークCL2CMを提案する。
提案手法は,Multi30KとMSCOCOの2つの多言語画像テキストデータセットと,ビデオテキストデータセットVATEXである。
- 参考スコア(独自算出の注目度): 23.58317401302547
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-lingual cross-modal retrieval has garnered increasing attention
recently, which aims to achieve the alignment between vision and target
language (V-T) without using any annotated V-T data pairs. Current methods
employ machine translation (MT) to construct pseudo-parallel data pairs, which
are then used to learn a multi-lingual and multi-modal embedding space that
aligns visual and target-language representations. However, the large
heterogeneous gap between vision and text, along with the noise present in
target language translations, poses significant challenges in effectively
aligning their representations. To address these challenges, we propose a
general framework, Cross-Lingual to Cross-Modal (CL2CM), which improves the
alignment between vision and target language using cross-lingual transfer. This
approach allows us to fully leverage the merits of multi-lingual pre-trained
models (e.g., mBERT) and the benefits of the same modality structure, i.e.,
smaller gap, to provide reliable and comprehensive semantic correspondence
(knowledge) for the cross-modal network. We evaluate our proposed approach on
two multilingual image-text datasets, Multi30K and MSCOCO, and one video-text
dataset, VATEX. The results clearly demonstrate the effectiveness of our
proposed method and its high potential for large-scale retrieval.
- Abstract(参考訳): 近年,注釈付きV-Tデータペアを使わずに,視覚と対象言語(V-T)のアライメントの実現を目指す言語間クロスモーダル検索が注目されている。
現在の手法では、機械翻訳(MT)を用いて擬似並列データペアを構築し、視覚的および対象言語表現を整列する多言語および多モーダルな埋め込み空間を学習するために使用される。
しかし、視覚とテキストの間の大きな不均一なギャップと、対象言語翻訳に存在する雑音は、それらの表現を効果的に整列させる上で大きな課題となる。
これらの課題に対処するために,言語間移動を用いた視覚と対象言語との整合性を改善する汎用フレームワークCL2CMを提案する。
このアプローチにより、マルチ言語で事前訓練されたモデル(mBERTなど)の利点と、同じモダリティ構造、すなわち小さなギャップの利点を十分に活用し、クロスモーダルネットワークに対する信頼性と包括的なセマンティック対応(知識)を提供することができる。
提案手法はMulti30KとMSCOCOの2つの多言語画像テキストデータセットとビデオテキストデータセットVATEXである。
その結果,提案手法の有効性と大規模検索の可能性を明らかにした。
関連論文リスト
- Multimodal LLM Enhanced Cross-lingual Cross-modal Retrieval [40.83470534691711]
言語間クロスモーダル検索(CCR)は、非英語クエリに基づいて視覚的に関連のあるコンテンツを検索することを目的としている。
1つの一般的なアプローチは、擬似並列データペアを作成するために機械翻訳(MT)を利用することである。
視覚表現と非英語表現の整合性を改善するため,多モーダル大言語モデル(MLLM)を組み込んだ新しいソリューションLE CCRを提案する。
論文 参考訳(メタデータ) (2024-09-30T05:25:51Z) - Dual-view Curricular Optimal Transport for Cross-lingual Cross-modal
Retrieval [57.98555925471121]
言語間のクロスモーダル検索が注目を集めている。
ほとんどのCCR手法は、機械翻訳を通して擬似並列視覚言語コーパスを構成する。
本稿では,CCRにおける雑音対応学習のためのDual-view Curricular Optimal Transport (DCOT)を提案する。
論文 参考訳(メタデータ) (2023-09-11T13:44:46Z) - mCL-NER: Cross-Lingual Named Entity Recognition via Multi-view
Contrastive Learning [54.523172171533645]
CrossNERは多言語コーパスの不足により不均一な性能から生じる課題に直面している。
言語横断的名前付きエンティティ認識(mCL-NER)のためのマルチビューコントラスト学習を提案する。
40言語にまたがるXTREMEベンチマーク実験では、従来のデータ駆動型およびモデルベースアプローチよりもmCL-NERの方が優れていることを示した。
論文 参考訳(メタデータ) (2023-08-17T16:02:29Z) - RC3: Regularized Contrastive Cross-lingual Cross-modal Pre-training [84.23022072347821]
本稿では,弱整列型ビオテキスト入力の表現近接を制約する正規化言語間ビオテキストコントラスト学習目標を提案する。
6言語にまたがる5つの下流マルチモーダルタスクの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-13T14:41:05Z) - Cross-View Language Modeling: Towards Unified Cross-Lingual Cross-Modal
Pre-training [21.017471684853987]
言語間およびモーダル間の事前学習を統一する,シンプルで効果的な事前学習フレームワークであるクロスビュー言語モデリングを導入する。
我々のアプローチは、言語横断とモーダル横断の事前学習が、同じオブジェクトの2つの異なるビューを共通の意味空間に整合させることで同じ目標を共有するという重要な観察によって動機付けられている。
CLMは、ゼロショットのクロスランガル転送により、代表的英語ビジョン言語モデルの翻訳テスト性能を上回る最初のマルチランガル・マルチモーダル事前訓練モデルである。
論文 参考訳(メタデータ) (2022-06-01T16:45:24Z) - Improving Low-resource Reading Comprehension via Cross-lingual
Transposition Rethinking [0.9236074230806579]
Extractive Reading (ERC)は、大規模で高品質なERCトレーニングデータの提供によって、大幅に進歩した。
このような急速な進歩と広範囲の応用にもかかわらず、英語のような高リソース言語以外の言語のデータセットは依然として不足している。
多言語環境において,既存の高品質抽出読解データセットをモデル化し,XLTT(Cross-Lingual Transposition ReThinking)モデルを提案する。
論文 参考訳(メタデータ) (2021-07-11T09:35:16Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language
Model Pre-Training [135.12061144759517]
本稿では,言語間言語モデルの事前学習を定式化する情報理論フレームワークを提案する。
コントラスト学習に基づく新しい事前学習課題を提案する。
単言語コーパスと並列コーパスの両方を活用することで、事前訓練されたモデルの言語間変換性を向上させるために、プレテキストを共同で訓練する。
論文 参考訳(メタデータ) (2020-07-15T16:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。