論文の概要: Improving video retrieval using multilingual knowledge transfer
- arxiv url: http://arxiv.org/abs/2208.11553v2
- Date: Thu, 25 Aug 2022 05:20:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-26 11:20:32.991113
- Title: Improving video retrieval using multilingual knowledge transfer
- Title(参考訳): 多言語知識転送による映像検索の改善
- Authors: Avinash Madasu, Estelle Aflalo, Gabriela Ben Melech Stan, Shao-Yen
Tseng, Gedas Bertasius, Vasudev Lal
- Abstract要約: 本稿では,多言語モデルからの知識伝達を利用して,映像検索の性能を向上させるフレームワークを提案する。
まず、最先端の機械翻訳モデルを用いて、擬似基底構造を持つ多言語ビデオテキストペアを構築する。
次に、このデータを用いて、英語と非英語のテキストクエリが表現されるビデオテキスト表現を学習する。
- 参考スコア(独自算出の注目度): 13.409396938198629
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video retrieval has seen tremendous progress with the development of
vision-language models. However, further improving these models require
additional labelled data which is a huge manual effort. In this paper, we
propose a framework MKTVR, that utilizes knowledge transfer from a multilingual
model to boost the performance of video retrieval. We first use
state-of-the-art machine translation models to construct pseudo ground-truth
multilingual video-text pairs. We then use this data to learn a video-text
representation where English and non-English text queries are represented in a
common embedding space based on pretrained multilingual models. We evaluate our
proposed approach on four English video retrieval datasets such as MSRVTT,
MSVD, DiDeMo and Charades. Experimental results demonstrate that our approach
achieves state-of-the-art results on all datasets outperforming previous
models. Finally, we also evaluate our model on a multilingual video-retrieval
dataset encompassing six languages and show that our model outperforms previous
multilingual video retrieval models in a zero-shot setting.
- Abstract(参考訳): 映像検索は視覚言語モデルの開発で大きな進歩を遂げている。
しかし、これらのモデルをさらに改善するには、追加のラベル付きデータが必要である。
本稿では,多言語モデルからの知識伝達を活用し,映像検索の性能を向上させるフレームワークであるmktvrを提案する。
まず、最先端の機械翻訳モデルを用いて、擬似基底構造多言語ビデオテキストペアを構築する。
そして、このデータを用いて、事前訓練された多言語モデルに基づいて、英語と非英語のテキストクエリが共通の埋め込み空間で表現されるビデオテキスト表現を学ぶ。
提案手法は,MSRVTT,MSVD,DiDeMo,Charadesの4つの英語ビデオ検索データセットに対して検討した。
実験結果から,本手法は過去のモデルよりも優れた結果が得られることが示された。
最後に,6言語にまたがる多言語ビデオリトライバルデータセット上でのモデルの評価を行い,ゼロショット設定で従来の多言語ビデオ検索モデルを上回ることを示す。
関連論文リスト
- TRINS: Towards Multimodal Language Models that Can Read [61.17806538631744]
TRINSはText-RichイメージINStructionデータセットである。
39,153の画像、キャプション、102,437の質問が含まれている。
本稿では,画像中のテキスト内容の理解に長けたLanguage-vision Reading Assistant(LaRA)を提案する。
論文 参考訳(メタデータ) (2024-06-10T18:52:37Z) - Reformulating Vision-Language Foundation Models and Datasets Towards
Universal Multimodal Assistants [65.47222691674074]
Muffinフレームワークは、事前訓練された視覚言語モデルを使用して視覚信号のプロバイダとして機能する。
UniMM-Chatデータセットはデータセットの相補性を探求し、高品質で多様なマルチモーダル命令を生成する。
論文 参考訳(メタデータ) (2023-10-01T12:35:18Z) - TextBind: Multi-turn Interleaved Multimodal Instruction-following in the Wild [102.93338424976959]
マルチターンインターリーブ型インストラクションフォロー機能を備えた,より大規模な言語モデルを実現するための,ほとんどアノテーションのないフレームワークであるTextBindを紹介する。
提案手法では,画像キャプチャペアのみが必要であり,言語モデルからマルチターンマルチモーダル・インストラクション・レスポンス・会話を生成する。
そこで我々は,画像エンコーダとデコーダモデルをシームレスに統合する言語モデル中心アーキテクチャであるMIMを考案した。
論文 参考訳(メタデータ) (2023-09-14T15:34:01Z) - Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages [76.35234803589412]
MPMは、英語以外の言語で大規模なマルチモーダルモデルを訓練するための効果的な訓練パラダイムである。
画像・テキスト・テキスト・画像生成における大規模なマルチモーダルモデルVisCPMを構築し,中国語の最先端(オープンソース)性能を実現する。
論文 参考訳(メタデータ) (2023-08-23T09:55:41Z) - Multilingual Multimodal Learning with Machine Translated Text [27.7207234512674]
英語のマルチモーダルデータの機械翻訳が、容易に利用できる多言語データの欠如を抑えるための効果的なプロキシとなるかどうかを考察する。
得られたデータセットからそのような翻訳を自動的に除去する2つの指標を提案する。
In experiment on five task across 20 languages in the IGLUE benchmark, we show that translated data can provide a useful signal for multilingual multimodal learning。
論文 参考訳(メタデータ) (2022-10-24T11:41:20Z) - C2KD: Cross-Lingual Cross-Modal Knowledge Distillation for Multilingual
Text-Video Retrieval [39.41224716332499]
多言語テキスト・ビデオ検索を改善するために,言語間クロスモーダル知識蒸留法を提案する。
英語のテキストビデオ検索が他の言語より優れているという事実に触発されて、異なる言語の入力テキストを用いて学生モデルを訓練する。
我々は、YouCook2ビデオデータセットの英語キャプションを8言語に翻訳することで、新しい多言語ビデオデータセット、Multi-YouCook2を導入する。
論文 参考訳(メタデータ) (2022-10-07T15:30:24Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z) - Multilingual Multimodal Pre-training for Zero-Shot Cross-Lingual
Transfer of Vision-Language Models [144.85290716246533]
視覚言語モデルのゼロショット言語間移動について検討する。
本稿では,文脈化多言語マルチモーダル埋め込みを学習するトランスフォーマティブモデルを提案する。
論文 参考訳(メタデータ) (2021-03-16T04:37:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。