論文の概要: BigVideo: A Large-scale Video Subtitle Translation Dataset for
Multimodal Machine Translation
- arxiv url: http://arxiv.org/abs/2305.18326v1
- Date: Tue, 23 May 2023 08:53:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-04 11:19:40.171589
- Title: BigVideo: A Large-scale Video Subtitle Translation Dataset for
Multimodal Machine Translation
- Title(参考訳): BigVideo:マルチモーダル機械翻訳のための大規模ビデオ字幕翻訳データセット
- Authors: Liyan Kang, Luyang Huang, Ningxin Peng, Peihao Zhu, Zewei Sun, Shanbo
Cheng, Mingxuan Wang, Degen Huang and Jinsong Su
- Abstract要約: 本稿では,大規模ビデオ字幕翻訳データセットであるBigVideoについて述べる。
BigVideoは10倍以上の大きさで、450万の文対と9,981時間のビデオで構成されている。
テキストやビデオ間で共有される共通意味をモデル化するために,クロスモーダルエンコーダにコントラスト学習手法を導入する。
- 参考スコア(独自算出の注目度): 50.22200540985927
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a large-scale video subtitle translation dataset, BigVideo, to
facilitate the study of multi-modality machine translation. Compared with the
widely used How2 and VaTeX datasets, BigVideo is more than 10 times larger,
consisting of 4.5 million sentence pairs and 9,981 hours of videos. We also
introduce two deliberately designed test sets to verify the necessity of visual
information: Ambiguous with the presence of ambiguous words, and Unambiguous in
which the text context is self-contained for translation. To better model the
common semantics shared across texts and videos, we introduce a contrastive
learning method in the cross-modal encoder. Extensive experiments on the
BigVideo show that: a) Visual information consistently improves the NMT model
in terms of BLEU, BLEURT, and COMET on both Ambiguous and Unambiguous test
sets. b) Visual information helps disambiguation, compared to the strong text
baseline on terminology-targeted scores and human evaluation. Dataset and our
implementations are available at https://github.com/DeepLearnXMU/BigVideo-VMT.
- Abstract(参考訳): 本稿では,マルチモダリティ機械翻訳の研究を容易にするために,大規模ビデオ字幕翻訳データセットbigvideoを提案する。
広く使われているhow2とvatexデータセットと比較して、bigvideoは450万文ペアと9,981時間のビデオからなる10倍以上の大きさである。
また、視覚情報の必要性を検証するために意図的に設計された2つのテストセットも導入する:曖昧な単語の存在にあいまいで、テキストコンテキストが翻訳のために自己完結しているあいまいさ。
テキストやビデオ間で共有される共通意味をモデル化するために,クロスモーダルエンコーダにコントラスト学習手法を導入する。
BigVideoの大規模な実験によると、
a)視覚情報は、あいまいなテストセットとあいまいなテストセットの両方において、BLEU、BLEURT、COMETの観点からNMTモデルを一貫して改善します。
b)視覚情報は,用語目標スコアと人的評価に基づく強いテキストベースラインと比較して曖昧さを助長する。
Datasetと実装はhttps://github.com/DeepLearnXMU/BigVideo-VMT.comで利用可能です。
関連論文リスト
- MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions [69.9122231800796]
MMTrailは,2000万回以上のトレーラークリップと視覚的キャプションを組み込んだ大規模マルチモーダルビデオ言語データセットである。
本稿では,27.1k時間以上のトレーラービデオで様々なモダリティアノテーションを実現するシステムキャプションフレームワークを提案する。
我々のデータセットは、大きめのマルチモーダル言語モデルトレーニングのためのパスを舗装する可能性がある。
論文 参考訳(メタデータ) (2024-07-30T16:43:24Z) - Video-Helpful Multimodal Machine Translation [36.9686296461948]
マルチモーダル機械翻訳(MMT)データセットは、画像とビデオキャプションまたは命令的なビデオ字幕から構成される。
EVA(Extensive training set and video-helpful evaluation set for Ambiguous subtitles translation)を導入し,852kの日本語(Ja-En)パラレル字幕対,520kの中国語(Zh-En)パラレル字幕対を含むMTデータセットを提案する。
Selective Attentionモデルに基づくMSTモデルであるSAFAを提案する。
論文 参考訳(メタデータ) (2023-10-31T05:51:56Z) - InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding
and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。
InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文 参考訳(メタデータ) (2023-07-13T17:58:32Z) - MuMUR : Multilingual Multimodal Universal Retrieval [19.242056928318913]
マルチ言語モデルからの知識伝達を利用して,マルチモーダル(画像とビデオ)検索の性能を向上させるフレームワーク MuMUR を提案する。
まず、最先端の機械翻訳モデルを用いて、擬似基底構造多言語視覚テキストペアを構築する。
次に、このデータを用いて、英語と非英語のテキストクエリが共通の埋め込み空間で表現される共同視覚テキスト表現を学習する。
論文 参考訳(メタデータ) (2022-08-24T13:55:15Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。