論文の概要: Video-Helpful Multimodal Machine Translation
- arxiv url: http://arxiv.org/abs/2310.20201v1
- Date: Tue, 31 Oct 2023 05:51:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 16:22:31.878996
- Title: Video-Helpful Multimodal Machine Translation
- Title(参考訳): ビデオ支援マルチモーダル機械翻訳
- Authors: Yihang Li, Shuichiro Shimizu, Chenhui Chu, Sadao Kurohashi, Wei Li
- Abstract要約: マルチモーダル機械翻訳(MMT)データセットは、画像とビデオキャプションまたは命令的なビデオ字幕から構成される。
EVA(Extensive training set and video-helpful evaluation set for Ambiguous subtitles translation)を導入し,852kの日本語(Ja-En)パラレル字幕対,520kの中国語(Zh-En)パラレル字幕対を含むMTデータセットを提案する。
Selective Attentionモデルに基づくMSTモデルであるSAFAを提案する。
- 参考スコア(独自算出の注目度): 36.9686296461948
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing multimodal machine translation (MMT) datasets consist of images and
video captions or instructional video subtitles, which rarely contain
linguistic ambiguity, making visual information ineffective in generating
appropriate translations. Recent work has constructed an ambiguous subtitles
dataset to alleviate this problem but is still limited to the problem that
videos do not necessarily contribute to disambiguation. We introduce EVA
(Extensive training set and Video-helpful evaluation set for Ambiguous
subtitles translation), an MMT dataset containing 852k Japanese-English (Ja-En)
parallel subtitle pairs, 520k Chinese-English (Zh-En) parallel subtitle pairs,
and corresponding video clips collected from movies and TV episodes. In
addition to the extensive training set, EVA contains a video-helpful evaluation
set in which subtitles are ambiguous, and videos are guaranteed helpful for
disambiguation. Furthermore, we propose SAFA, an MMT model based on the
Selective Attention model with two novel methods: Frame attention loss and
Ambiguity augmentation, aiming to use videos in EVA for disambiguation fully.
Experiments on EVA show that visual information and the proposed methods can
boost translation performance, and our model performs significantly better than
existing MMT models. The EVA dataset and the SAFA model are available at:
https://github.com/ku-nlp/video-helpful-MMT.git.
- Abstract(参考訳): 既存のマルチモーダル機械翻訳(MMT)データセットは、画像とビデオキャプションまたは命令ビデオ字幕で構成されており、言語的曖昧さをほとんど含まないため、視覚情報は適切な翻訳を生成するのに効果的ではない。
最近の研究は、この問題を軽減するために曖昧な字幕データセットを構築しているが、ビデオが必ずしも曖昧さに寄与しない問題に限られている。
EVA(Extensive training set and video-helpful evaluation set for Ambiguous subtitles translation),852k Japanese- English (Ja-En) parallel subtitle pairs,520k Chinese- English (Zh-En) parallel subtitle pairs,および映画とテレビのエピソードから収集した対応するビデオクリップを紹介する。
広範なトレーニングセットに加えて、evaには、字幕があいまいで、ビデオが曖昧さ回避に役立つビデオ支援評価セットが含まれている。
さらに,フレームアテンション損失とあいまい度増大という2つの新しい手法による選択的アテンションモデルに基づくmmtモデルであるsafaを提案する。
EVA実験により,視覚情報と提案手法により翻訳性能が向上し,既存のMTモデルよりも優れた性能が得られた。
EVAデータセットとSAFAモデルは、https://github.com/ku-nlp/video-helpful-MMT.gitで利用可能である。
関連論文リスト
- Training-free Video Temporal Grounding using Large-scale Pre-trained Models [41.71055776623368]
ビデオの時間的グラウンドは、与えられた自然言語クエリに最も関係のある、トリミングされていないビデオ内のビデオセグメントを特定することを目的としている。
既存のビデオ時間的ローカライゼーションモデルは、トレーニングのために特定のデータセットに依存しており、データ収集コストが高い。
本研究では,事前学習型大規模モデルの能力を活用したトレーニングフリービデオ時間グラウンド手法を提案する。
論文 参考訳(メタデータ) (2024-08-29T02:25:12Z) - HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [72.69268311756082]
本稿では,大言語モデル(LLM)の能力を活用して,大規模ビデオに対応する高品質な映像記述を実現することを提案する。
本稿では,より長い字幕テキストを考慮に入れたプロンプト手法を提案する。
我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
論文 参考訳(メタデータ) (2023-10-07T19:32:55Z) - BigVideo: A Large-scale Video Subtitle Translation Dataset for
Multimodal Machine Translation [50.22200540985927]
本稿では,大規模ビデオ字幕翻訳データセットであるBigVideoについて述べる。
BigVideoは10倍以上の大きさで、450万の文対と9,981時間のビデオで構成されている。
テキストやビデオ間で共有される共通意味をモデル化するために,クロスモーダルエンコーダにコントラスト学習手法を導入する。
論文 参考訳(メタデータ) (2023-05-23T08:53:36Z) - VISA: An Ambiguous Subtitles Dataset for Visual Scene-Aware Machine
Translation [24.99480715551902]
マルチモーダル機械翻訳(MMT)データセットは、画像とビデオキャプションまたは一般的な字幕で構成され、言語的曖昧さをほとんど含まない。
日本語と英語のパラレルな文対とそれに対応するビデオクリップからなる新しいデータセットであるVISAを紹介する。
論文 参考訳(メタデータ) (2022-01-20T08:38:31Z) - Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。
私たちのコードと事前訓練されたモデルはリリースされます。
論文 参考訳(メタデータ) (2021-12-17T15:55:53Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。