論文の概要: Dual-view Curricular Optimal Transport for Cross-lingual Cross-modal
Retrieval
- arxiv url: http://arxiv.org/abs/2309.05451v1
- Date: Mon, 11 Sep 2023 13:44:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 12:38:18.568338
- Title: Dual-view Curricular Optimal Transport for Cross-lingual Cross-modal
Retrieval
- Title(参考訳): クロスリンガル・クロスモーダル検索のためのデュアルビュー・キュラー最適輸送
- Authors: Yabing Wang, Shuhui Wang, Hao Luo, Jianfeng Dong, Fan Wang, Meng Han,
Xun Wang, Meng Wang
- Abstract要約: 言語間のクロスモーダル検索が注目を集めている。
ほとんどのCCR手法は、機械翻訳を通して擬似並列視覚言語コーパスを構成する。
本稿では,CCRにおける雑音対応学習のためのDual-view Curricular Optimal Transport (DCOT)を提案する。
- 参考スコア(独自算出の注目度): 57.98555925471121
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current research on cross-modal retrieval is mostly English-oriented, as the
availability of a large number of English-oriented human-labeled
vision-language corpora. In order to break the limit of non-English labeled
data, cross-lingual cross-modal retrieval (CCR) has attracted increasing
attention. Most CCR methods construct pseudo-parallel vision-language corpora
via Machine Translation (MT) to achieve cross-lingual transfer. However, the
translated sentences from MT are generally imperfect in describing the
corresponding visual contents. Improperly assuming the pseudo-parallel data are
correctly correlated will make the networks overfit to the noisy
correspondence. Therefore, we propose Dual-view Curricular Optimal Transport
(DCOT) to learn with noisy correspondence in CCR. In particular, we quantify
the confidence of the sample pair correlation with optimal transport theory
from both the cross-lingual and cross-modal views, and design dual-view
curriculum learning to dynamically model the transportation costs according to
the learning stage of the two views. Extensive experiments are conducted on two
multilingual image-text datasets and one video-text dataset, and the results
demonstrate the effectiveness and robustness of the proposed method. Besides,
our proposed method also shows a good expansibility to cross-lingual image-text
baselines and a decent generalization on out-of-domain data.
- Abstract(参考訳): 現在のクロスモーダル検索の研究は英語指向であり、多くの英語指向の視覚言語コーパスが利用可能である。
非英語ラベル付きデータの限界を断ち切るために、言語間クロスモーダル検索(CCR)が注目されている。
ほとんどのCCR手法は、機械翻訳(MT)を介して擬似並列視覚言語コーパスを構築し、言語間移動を実現する。
しかし、mtからの翻訳文は、概して対応する視覚内容を記述するのに不完全である。
疑似並列データが正しく相関していると仮定すると、ネットワークはノイズ対応に過度に適合する。
そこで本研究では,CCRにおける雑音対応学習のためのDual-view Curricular Optimal Transport (DCOT)を提案する。
特に,クロスリンガルとクロスモーダルの両方の視点から,サンプル対相関と最適輸送理論との信頼度を定量化し,2つの視点の学習段階に応じて輸送コストを動的にモデル化するデュアルビューカリキュラム学習を設計する。
2つの多言語画像テキストデータセットと1つのビデオテキストデータセットについて広範な実験を行い,提案手法の有効性と頑健性を示す。
また,提案手法は,言語間イメージテキストベースラインへの拡張性や,ドメイン外データに対する適度な一般化性を示す。
関連論文リスト
- Multimodal LLM Enhanced Cross-lingual Cross-modal Retrieval [40.83470534691711]
言語間クロスモーダル検索(CCR)は、非英語クエリに基づいて視覚的に関連のあるコンテンツを検索することを目的としている。
1つの一般的なアプローチは、擬似並列データペアを作成するために機械翻訳(MT)を利用することである。
視覚表現と非英語表現の整合性を改善するため,多モーダル大言語モデル(MLLM)を組み込んだ新しいソリューションLE CCRを提案する。
論文 参考訳(メタデータ) (2024-09-30T05:25:51Z) - CL2CM: Improving Cross-Lingual Cross-Modal Retrieval via Cross-Lingual
Knowledge Transfer [23.58317401302547]
本稿では,言語間移動を用いた視覚と対象言語間のアライメントを改善する汎用フレームワークCL2CMを提案する。
提案手法は,Multi30KとMSCOCOの2つの多言語画像テキストデータセットと,ビデオテキストデータセットVATEXである。
論文 参考訳(メタデータ) (2023-12-14T14:29:53Z) - RC3: Regularized Contrastive Cross-lingual Cross-modal Pre-training [84.23022072347821]
本稿では,弱整列型ビオテキスト入力の表現近接を制約する正規化言語間ビオテキストコントラスト学習目標を提案する。
6言語にまたがる5つの下流マルチモーダルタスクの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-13T14:41:05Z) - Beyond Triplet: Leveraging the Most Data for Multimodal Machine
Translation [53.342921374639346]
マルチモーダル機械翻訳は、視覚などの他のモーダルからの情報を取り入れることで、翻訳品質を向上させることを目的としている。
従来のMMTシステムは主に視覚情報へのアクセスと利用に重点を置いており、画像関連データセット上でそれらの手法を検証する傾向がある。
本稿では,MTのための新しい手法と新しいデータセットを確立する。
論文 参考訳(メタデータ) (2022-12-20T15:02:38Z) - Cross-View Language Modeling: Towards Unified Cross-Lingual Cross-Modal
Pre-training [21.017471684853987]
言語間およびモーダル間の事前学習を統一する,シンプルで効果的な事前学習フレームワークであるクロスビュー言語モデリングを導入する。
我々のアプローチは、言語横断とモーダル横断の事前学習が、同じオブジェクトの2つの異なるビューを共通の意味空間に整合させることで同じ目標を共有するという重要な観察によって動機付けられている。
CLMは、ゼロショットのクロスランガル転送により、代表的英語ビジョン言語モデルの翻訳テスト性能を上回る最初のマルチランガル・マルチモーダル事前訓練モデルである。
論文 参考訳(メタデータ) (2022-06-01T16:45:24Z) - Bridging the Data Gap between Training and Inference for Unsupervised
Neural Machine Translation [49.916963624249355]
UNMTモデルは、翻訳されたソースと推論中の自然言語で擬似並列データに基づいて訓練される。
トレーニングと推論のソース差はUNMTモデルの翻訳性能を妨げている。
本稿では、擬似並列データ自然言語を同時に用いたオンライン自己学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-16T04:50:27Z) - Improving Low-resource Reading Comprehension via Cross-lingual
Transposition Rethinking [0.9236074230806579]
Extractive Reading (ERC)は、大規模で高品質なERCトレーニングデータの提供によって、大幅に進歩した。
このような急速な進歩と広範囲の応用にもかかわらず、英語のような高リソース言語以外の言語のデータセットは依然として不足している。
多言語環境において,既存の高品質抽出読解データセットをモデル化し,XLTT(Cross-Lingual Transposition ReThinking)モデルを提案する。
論文 参考訳(メタデータ) (2021-07-11T09:35:16Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z) - InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language
Model Pre-Training [135.12061144759517]
本稿では,言語間言語モデルの事前学習を定式化する情報理論フレームワークを提案する。
コントラスト学習に基づく新しい事前学習課題を提案する。
単言語コーパスと並列コーパスの両方を活用することで、事前訓練されたモデルの言語間変換性を向上させるために、プレテキストを共同で訓練する。
論文 参考訳(メタデータ) (2020-07-15T16:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。