論文の概要: Improving video retrieval using multilingual knowledge transfer
- arxiv url: http://arxiv.org/abs/2208.11553v2
- Date: Thu, 25 Aug 2022 05:20:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-26 11:20:32.991113
- Title: Improving video retrieval using multilingual knowledge transfer
- Title(参考訳): 多言語知識転送による映像検索の改善
- Authors: Avinash Madasu, Estelle Aflalo, Gabriela Ben Melech Stan, Shao-Yen
Tseng, Gedas Bertasius, Vasudev Lal
- Abstract要約: 本稿では,多言語モデルからの知識伝達を利用して,映像検索の性能を向上させるフレームワークを提案する。
まず、最先端の機械翻訳モデルを用いて、擬似基底構造を持つ多言語ビデオテキストペアを構築する。
次に、このデータを用いて、英語と非英語のテキストクエリが表現されるビデオテキスト表現を学習する。
- 参考スコア(独自算出の注目度): 13.409396938198629
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video retrieval has seen tremendous progress with the development of
vision-language models. However, further improving these models require
additional labelled data which is a huge manual effort. In this paper, we
propose a framework MKTVR, that utilizes knowledge transfer from a multilingual
model to boost the performance of video retrieval. We first use
state-of-the-art machine translation models to construct pseudo ground-truth
multilingual video-text pairs. We then use this data to learn a video-text
representation where English and non-English text queries are represented in a
common embedding space based on pretrained multilingual models. We evaluate our
proposed approach on four English video retrieval datasets such as MSRVTT,
MSVD, DiDeMo and Charades. Experimental results demonstrate that our approach
achieves state-of-the-art results on all datasets outperforming previous
models. Finally, we also evaluate our model on a multilingual video-retrieval
dataset encompassing six languages and show that our model outperforms previous
multilingual video retrieval models in a zero-shot setting.
- Abstract(参考訳): 映像検索は視覚言語モデルの開発で大きな進歩を遂げている。
しかし、これらのモデルをさらに改善するには、追加のラベル付きデータが必要である。
本稿では,多言語モデルからの知識伝達を活用し,映像検索の性能を向上させるフレームワークであるmktvrを提案する。
まず、最先端の機械翻訳モデルを用いて、擬似基底構造多言語ビデオテキストペアを構築する。
そして、このデータを用いて、事前訓練された多言語モデルに基づいて、英語と非英語のテキストクエリが共通の埋め込み空間で表現されるビデオテキスト表現を学ぶ。
提案手法は,MSRVTT,MSVD,DiDeMo,Charadesの4つの英語ビデオ検索データセットに対して検討した。
実験結果から,本手法は過去のモデルよりも優れた結果が得られることが示された。
最後に,6言語にまたがる多言語ビデオリトライバルデータセット上でのモデルの評価を行い,ゼロショット設定で従来の多言語ビデオ検索モデルを上回ることを示す。
関連論文リスト
- Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Exploring Vision Language Models for Multimodal and Multilingual Stance Detection [9.079302402271491]
ソーシャルメディアのグローバルリーチは情報の拡散を増幅し、堅牢な自然言語処理タスクの必要性を強調している。
以前の研究では主にテキストのみの入力に焦点が当てられ、マルチモーダルなシナリオは比較的過小評価されている。
本稿では,マルチモーダルおよび多言語姿勢検出タスクにおけるVLM(Vision-Language Models)の評価を行う。
論文 参考訳(メタデータ) (2025-01-29T13:39:53Z) - jina-clip-v2: Multilingual Multimodal Embeddings for Text and Images [5.587329786636647]
Contrastive Language-Image Pretraining (CLIP) は、画像とテキストを共有埋め込み空間で整列する非常に効果的な方法である。
CLIPモデルはテキストのみのタスクに苦しむことが多く、特殊なテキストモデルに比べてパフォーマンスが劣る。
本研究では,従来のモデルであるjina-clip-v1に基づいて,マルチタスク,マルチステージのコントラスト学習を多言語で実現した改良フレームワークを提案する。
結果として得られたモデルであるjina-clip-v2は、テキストのみのタスクとマルチモーダルタスクで前バージョンより優れており、マルチリンガルサポート、複雑なビジュアルドキュメントの理解の向上、効率の向上などが追加されている。
論文 参考訳(メタデータ) (2024-12-11T22:28:12Z) - TRINS: Towards Multimodal Language Models that Can Read [61.17806538631744]
TRINSはText-RichイメージINStructionデータセットである。
39,153の画像、キャプション、102,437の質問が含まれている。
本稿では,画像中のテキスト内容の理解に長けたLanguage-vision Reading Assistant(LaRA)を提案する。
論文 参考訳(メタデータ) (2024-06-10T18:52:37Z) - Reformulating Vision-Language Foundation Models and Datasets Towards
Universal Multimodal Assistants [65.47222691674074]
Muffinフレームワークは、事前訓練された視覚言語モデルを使用して視覚信号のプロバイダとして機能する。
UniMM-Chatデータセットはデータセットの相補性を探求し、高品質で多様なマルチモーダル命令を生成する。
論文 参考訳(メタデータ) (2023-10-01T12:35:18Z) - Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages [76.35234803589412]
MPMは、英語以外の言語で大規模なマルチモーダルモデルを訓練するための効果的な訓練パラダイムである。
画像・テキスト・テキスト・画像生成における大規模なマルチモーダルモデルVisCPMを構築し,中国語の最先端(オープンソース)性能を実現する。
論文 参考訳(メタデータ) (2023-08-23T09:55:41Z) - Multilingual Multimodal Learning with Machine Translated Text [27.7207234512674]
英語のマルチモーダルデータの機械翻訳が、容易に利用できる多言語データの欠如を抑えるための効果的なプロキシとなるかどうかを考察する。
得られたデータセットからそのような翻訳を自動的に除去する2つの指標を提案する。
In experiment on five task across 20 languages in the IGLUE benchmark, we show that translated data can provide a useful signal for multilingual multimodal learning。
論文 参考訳(メタデータ) (2022-10-24T11:41:20Z) - C2KD: Cross-Lingual Cross-Modal Knowledge Distillation for Multilingual
Text-Video Retrieval [39.41224716332499]
多言語テキスト・ビデオ検索を改善するために,言語間クロスモーダル知識蒸留法を提案する。
英語のテキストビデオ検索が他の言語より優れているという事実に触発されて、異なる言語の入力テキストを用いて学生モデルを訓練する。
我々は、YouCook2ビデオデータセットの英語キャプションを8言語に翻訳することで、新しい多言語ビデオデータセット、Multi-YouCook2を導入する。
論文 参考訳(メタデータ) (2022-10-07T15:30:24Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z) - Multilingual Multimodal Pre-training for Zero-Shot Cross-Lingual
Transfer of Vision-Language Models [144.85290716246533]
視覚言語モデルのゼロショット言語間移動について検討する。
本稿では,文脈化多言語マルチモーダル埋め込みを学習するトランスフォーマティブモデルを提案する。
論文 参考訳(メタデータ) (2021-03-16T04:37:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。