論文の概要: C2KD: Cross-Lingual Cross-Modal Knowledge Distillation for Multilingual
Text-Video Retrieval
- arxiv url: http://arxiv.org/abs/2210.03625v2
- Date: Tue, 9 May 2023 19:58:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-11 17:27:09.366303
- Title: C2KD: Cross-Lingual Cross-Modal Knowledge Distillation for Multilingual
Text-Video Retrieval
- Title(参考訳): C2KD:多言語テキストビデオ検索のための言語間クロスモーダル知識蒸留
- Authors: Andrew Rouditchenko, Yung-Sung Chuang, Nina Shvetsova, Samuel Thomas,
Rogerio Feris, Brian Kingsbury, Leonid Karlinsky, David Harwath, Hilde
Kuehne, James Glass
- Abstract要約: 多言語テキスト・ビデオ検索を改善するために,言語間クロスモーダル知識蒸留法を提案する。
英語のテキストビデオ検索が他の言語より優れているという事実に触発されて、異なる言語の入力テキストを用いて学生モデルを訓練する。
我々は、YouCook2ビデオデータセットの英語キャプションを8言語に翻訳することで、新しい多言語ビデオデータセット、Multi-YouCook2を導入する。
- 参考スコア(独自算出の注目度): 39.41224716332499
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multilingual text-video retrieval methods have improved significantly in
recent years, but the performance for other languages lags behind English. We
propose a Cross-Lingual Cross-Modal Knowledge Distillation method to improve
multilingual text-video retrieval. Inspired by the fact that English text-video
retrieval outperforms other languages, we train a student model using input
text in different languages to match the cross-modal predictions from teacher
models using input text in English. We propose a cross entropy based objective
which forces the distribution over the student's text-video similarity scores
to be similar to those of the teacher models. We introduce a new multilingual
video dataset, Multi-YouCook2, by translating the English captions in the
YouCook2 video dataset to 8 other languages. Our method improves multilingual
text-video retrieval performance on Multi-YouCook2 and several other datasets
such as Multi-MSRVTT and VATEX. We also conducted an analysis on the
effectiveness of different multilingual text models as teachers. The code,
models, and dataset are available at https://github.com/roudimit/c2kd.
- Abstract(参考訳): 近年,多言語テキスト・ビデオ検索法は大幅に改善されているが,他の言語も英語に遅れている。
多言語テキスト・ビデオ検索を改善するために,言語間クロスモーダル知識蒸留法を提案する。
英語のテキストビデオ検索が他の言語より優れているという事実に触発されて、異なる言語の入力テキストを用いて学生モデルを訓練し、英語の入力テキストを用いた教師モデルからの相互モーダル予測に適合させる。
本研究では,生徒のテキスト・ビデオ類似度スコアの分布を教師モデルに類似させるクロスエントロピーに基づく目標を提案する。
我々は、YouCook2ビデオデータセットの英語字幕を8言語に翻訳することで、新しい多言語ビデオデータセット、Multi-YouCook2を導入する。
提案手法は,Multi-YouCook2およびMulti-MSRVTTやVATEXなどの他のデータセット上での多言語テキストビデオ検索性能を向上させる。
また,教師としての多言語テキストモデルの有効性について分析を行った。
コード、モデル、データセットはhttps://github.com/roudimit/c2kdで利用可能である。
関連論文リスト
- MuMUR : Multilingual Multimodal Universal Retrieval [19.242056928318913]
マルチ言語モデルからの知識伝達を利用して,マルチモーダル(画像とビデオ)検索の性能を向上させるフレームワーク MuMUR を提案する。
まず、最先端の機械翻訳モデルを用いて、擬似基底構造多言語視覚テキストペアを構築する。
次に、このデータを用いて、英語と非英語のテキストクエリが共通の埋め込み空間で表現される共同視覚テキスト表現を学習する。
論文 参考訳(メタデータ) (2022-08-24T13:55:15Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z) - Breaking Down Multilingual Machine Translation [74.24795388967907]
マルチ言語学習は一般にエンコーダにとって有益であるが,ローソース言語(LRL)ではデコーダにのみ有益であることを示す。
LRLの多言語モデルと一対多モデルは、Aharoniらによって報告された最良の結果よりも優れています。
論文 参考訳(メタデータ) (2021-10-15T14:57:12Z) - Towards Zero-shot Cross-lingual Image Retrieval and Tagging [1.4425878137951236]
テキスト側での言語間事前学習を用いたマルチモーダル表現学習のためのゼロショットアプローチを提案する。
クラウドソーシングプラットフォームを用いて収集した7言語に,新たに1Kの多言語MSCOCO2014キャプションテストデータセット(XTD10)を導入する。
また、多言語画像タグ付けのような下流タスクに対して、ゼロショット方式で言語間モデルをいかに使用できるかを実証する。
論文 参考訳(メタデータ) (2021-09-15T23:39:15Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z) - Multilingual Multimodal Pre-training for Zero-Shot Cross-Lingual
Transfer of Vision-Language Models [144.85290716246533]
視覚言語モデルのゼロショット言語間移動について検討する。
本稿では,文脈化多言語マルチモーダル埋め込みを学習するトランスフォーマティブモデルを提案する。
論文 参考訳(メタデータ) (2021-03-16T04:37:40Z) - InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language
Model Pre-Training [135.12061144759517]
本稿では,言語間言語モデルの事前学習を定式化する情報理論フレームワークを提案する。
コントラスト学習に基づく新しい事前学習課題を提案する。
単言語コーパスと並列コーパスの両方を活用することで、事前訓練されたモデルの言語間変換性を向上させるために、プレテキストを共同で訓練する。
論文 参考訳(メタデータ) (2020-07-15T16:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。