論文の概要: TopicVD: A Topic-Based Dataset of Video-Guided Multimodal Machine Translation for Documentaries
- arxiv url: http://arxiv.org/abs/2505.05714v1
- Date: Fri, 09 May 2025 01:31:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:10.121102
- Title: TopicVD: A Topic-Based Dataset of Video-Guided Multimodal Machine Translation for Documentaries
- Title(参考訳): TopicVD: ドキュメンタリーのためのビデオガイド付きマルチモーダル機械翻訳のトピックベースデータセット
- Authors: Jinze Lv, Jian Chen, Zi Long, Xianghua Fu, Yin Chen,
- Abstract要約: 文書のマルチモーダル機械翻訳のためのトピックベースのデータセットであるTopicVDを開発した。
テキストとビデオ間のセマンティクスの共有をよりよく把握するために,モーダルな双方向アテンションモジュールに基づくMTモデルを提案する。
- 参考スコア(独自算出の注目度): 3.4883174582955983
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Most existing multimodal machine translation (MMT) datasets are predominantly composed of static images or short video clips, lacking extensive video data across diverse domains and topics. As a result, they fail to meet the demands of real-world MMT tasks, such as documentary translation. In this study, we developed TopicVD, a topic-based dataset for video-supported multimodal machine translation of documentaries, aiming to advance research in this field. We collected video-subtitle pairs from documentaries and categorized them into eight topics, such as economy and nature, to facilitate research on domain adaptation in video-guided MMT. Additionally, we preserved their contextual information to support research on leveraging the global context of documentaries in video-guided MMT. To better capture the shared semantics between text and video, we propose an MMT model based on a cross-modal bidirectional attention module. Extensive experiments on the TopicVD dataset demonstrate that visual information consistently improves the performance of the NMT model in documentary translation. However, the MMT model's performance significantly declines in out-of-domain scenarios, highlighting the need for effective domain adaptation methods. Additionally, experiments demonstrate that global context can effectively improve translation performance. % Dataset and our implementations are available at https://github.com/JinzeLv/TopicVD
- Abstract(参考訳): 既存のマルチモーダル機械翻訳(MMT)データセットのほとんどは、静的画像または短いビデオクリップで構成されており、様々な領域やトピックにわたる広範なビデオデータが欠如している。
その結果、ドキュメンタリー翻訳などの実世界のMTTタスクの要求に応えられなかった。
本研究では,文書の多モーダル翻訳のためのトピックベースデータセットであるTopicVDを開発した。
ビデオガイドMMTにおけるドメイン適応の研究を容易にするため,ビデオ字幕ペアを文書から収集し,それらを経済や自然など8つのトピックに分類した。
さらに,ビデオ誘導MTにおける文書のグローバルな文脈を活用する研究を支援するために,それらの文脈情報を保存した。
テキストとビデオ間のセマンティクスの共有をよりよく把握するために,モーダルな双方向アテンションモジュールに基づくMTモデルを提案する。
TopicVDデータセットの広汎な実験により、視覚情報は、ドキュメンタリー翻訳におけるNMTモデルの性能を一貫して改善することを示した。
しかし、MMTモデルの性能はドメイン外シナリオで著しく低下し、効果的なドメイン適応手法の必要性が強調された。
さらに、グローバルコンテキストが翻訳性能を効果的に向上することを示す実験も行われた。
https://github.com/JinzeLv/TopicVD
関連論文リスト
- Summarization of Multimodal Presentations with Vision-Language Models: Study of the Effect of Modalities and Structure [5.332290080594085]
視覚言語モデル(VLM)は、視覚情報とテキスト情報を複数のフォーマットで処理することができる。
テキストの多いマルチモーダル文書から要約を生成するための費用対効果戦略を提案する。
論文 参考訳(メタデータ) (2025-04-14T09:55:01Z) - MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions [69.9122231800796]
MMTrailは,2000万回以上のトレーラークリップと視覚的キャプションを組み込んだ大規模マルチモーダルビデオ言語データセットである。
本稿では,27.1k時間以上のトレーラービデオで様々なモダリティアノテーションを実現するシステムキャプションフレームワークを提案する。
我々のデータセットは、大きめのマルチモーダル言語モデルトレーニングのためのパスを舗装する可能性がある。
論文 参考訳(メタデータ) (2024-07-30T16:43:24Z) - 3AM: An Ambiguity-Aware Multi-Modal Machine Translation Dataset [90.95948101052073]
英語と中国語で26,000のパラレル文対からなる曖昧性を考慮したMMTデータセットである3AMを導入する。
我々のデータセットは、他のMTデータセットよりもあいまいで、キャプションと画像の両方が多種多様であるように設計されています。
実験の結果,我々のデータセットでトレーニングしたMTモデルは,他のMTデータセットでトレーニングしたMTモデルよりも視覚情報を活用する能力が高いことがわかった。
論文 参考訳(メタデータ) (2024-04-29T04:01:30Z) - Video-Helpful Multimodal Machine Translation [36.9686296461948]
マルチモーダル機械翻訳(MMT)データセットは、画像とビデオキャプションまたは命令的なビデオ字幕から構成される。
EVA(Extensive training set and video-helpful evaluation set for Ambiguous subtitles translation)を導入し,852kの日本語(Ja-En)パラレル字幕対,520kの中国語(Zh-En)パラレル字幕対を含むMTデータセットを提案する。
Selective Attentionモデルに基づくMSTモデルであるSAFAを提案する。
論文 参考訳(メタデータ) (2023-10-31T05:51:56Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - Beyond Triplet: Leveraging the Most Data for Multimodal Machine
Translation [53.342921374639346]
マルチモーダル機械翻訳は、視覚などの他のモーダルからの情報を取り入れることで、翻訳品質を向上させることを目的としている。
従来のMMTシステムは主に視覚情報へのアクセスと利用に重点を置いており、画像関連データセット上でそれらの手法を検証する傾向がある。
本稿では,MTのための新しい手法と新しいデータセットを確立する。
論文 参考訳(メタデータ) (2022-12-20T15:02:38Z) - VISA: An Ambiguous Subtitles Dataset for Visual Scene-Aware Machine
Translation [24.99480715551902]
マルチモーダル機械翻訳(MMT)データセットは、画像とビデオキャプションまたは一般的な字幕で構成され、言語的曖昧さをほとんど含まない。
日本語と英語のパラレルな文対とそれに対応するビデオクリップからなる新しいデータセットであるVISAを紹介する。
論文 参考訳(メタデータ) (2022-01-20T08:38:31Z) - Video Captioning with Guidance of Multimodal Latent Topics [123.5255241103578]
我々は、データから教師なしの方法でマルチモーダルトピックをマイニングする統合キャプションフレームワークM&M TGMを提案する。
事前に定義されたトピックと比較して、マイニングされたマルチモーダルトピックはより意味的に、視覚的に一貫性がある。
MSR-VTTとYoutube2Textのデータセットを用いた大規模な実験の結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2017-08-31T11:18:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。