論文の概要: VISA: An Ambiguous Subtitles Dataset for Visual Scene-Aware Machine
Translation
- arxiv url: http://arxiv.org/abs/2201.08054v1
- Date: Thu, 20 Jan 2022 08:38:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-21 13:55:40.054272
- Title: VISA: An Ambiguous Subtitles Dataset for Visual Scene-Aware Machine
Translation
- Title(参考訳): VISA:ビジュアルシーン対応機械翻訳のための曖昧な字幕データセット
- Authors: Yihang Li, Shuichiro Shimizu, Weiqi Gu, Chenhui Chu, Sadao Kurohashi
- Abstract要約: マルチモーダル機械翻訳(MMT)データセットは、画像とビデオキャプションまたは一般的な字幕で構成され、言語的曖昧さをほとんど含まない。
日本語と英語のパラレルな文対とそれに対応するビデオクリップからなる新しいデータセットであるVISAを紹介する。
- 参考スコア(独自算出の注目度): 24.99480715551902
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing multimodal machine translation (MMT) datasets consist of images and
video captions or general subtitles, which rarely contain linguistic ambiguity,
making visual information not so effective to generate appropriate
translations. We introduce VISA, a new dataset that consists of 40k
Japanese-English parallel sentence pairs and corresponding video clips with the
following key features: (1) the parallel sentences are subtitles from movies
and TV episodes; (2) the source subtitles are ambiguous, which means they have
multiple possible translations with different meanings; (3) we divide the
dataset into Polysemy and Omission according to the cause of ambiguity. We show
that VISA is challenging for the latest MMT system, and we hope that the
dataset can facilitate MMT research.
- Abstract(参考訳): 既存のマルチモーダル機械翻訳(mmt)データセットは、画像とビデオキャプションまたは一般的な字幕で構成されており、言語的な曖昧さをほとんど含まない。
日本語のパラレルな文対とそれに対応するビデオクリップからなる新たなデータセットであるVISAを紹介する。(1)パラレルな文は映画やテレビのエピソードのサブタイトルであり、(2)ソースの字幕は曖昧であり、異なる意味を持つ複数の翻訳が可能であり、(3)あいまいさの原因に応じてデータセットをポリセミーとオミッションに分割する。
我々は、最新のMTシステムではVISAが困難であることを示し、このデータセットがMT研究を促進することを期待する。
関連論文リスト
- MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions [69.9122231800796]
MMTrailは,2000万回以上のトレーラークリップと視覚的キャプションを組み込んだ大規模マルチモーダルビデオ言語データセットである。
本稿では,27.1k時間以上のトレーラービデオで様々なモダリティアノテーションを実現するシステムキャプションフレームワークを提案する。
我々のデータセットは、大きめのマルチモーダル言語モデルトレーニングのためのパスを舗装する可能性がある。
論文 参考訳(メタデータ) (2024-07-30T16:43:24Z) - 3AM: An Ambiguity-Aware Multi-Modal Machine Translation Dataset [90.95948101052073]
英語と中国語で26,000のパラレル文対からなる曖昧性を考慮したMMTデータセットである3AMを導入する。
我々のデータセットは、他のMTデータセットよりもあいまいで、キャプションと画像の両方が多種多様であるように設計されています。
実験の結果,我々のデータセットでトレーニングしたMTモデルは,他のMTデータセットでトレーニングしたMTモデルよりも視覚情報を活用する能力が高いことがわかった。
論文 参考訳(メタデータ) (2024-04-29T04:01:30Z) - Exploring the Necessity of Visual Modality in Multimodal Machine Translation using Authentic Datasets [3.54128607634285]
実世界の翻訳データセットを活用し,視覚的モダリティが翻訳効率に与える影響について検討した。
視覚的モダリティは、実際の翻訳データセットの大部分に有利であることが判明した。
以上の結果から,視覚情報は多モーダル翻訳における補助的役割を担っていることが示唆された。
論文 参考訳(メタデータ) (2024-04-09T08:19:10Z) - Video-Helpful Multimodal Machine Translation [36.9686296461948]
マルチモーダル機械翻訳(MMT)データセットは、画像とビデオキャプションまたは命令的なビデオ字幕から構成される。
EVA(Extensive training set and video-helpful evaluation set for Ambiguous subtitles translation)を導入し,852kの日本語(Ja-En)パラレル字幕対,520kの中国語(Zh-En)パラレル字幕対を含むMTデータセットを提案する。
Selective Attentionモデルに基づくMSTモデルであるSAFAを提案する。
論文 参考訳(メタデータ) (2023-10-31T05:51:56Z) - BigVideo: A Large-scale Video Subtitle Translation Dataset for
Multimodal Machine Translation [50.22200540985927]
本稿では,大規模ビデオ字幕翻訳データセットであるBigVideoについて述べる。
BigVideoは10倍以上の大きさで、450万の文対と9,981時間のビデオで構成されている。
テキストやビデオ間で共有される共通意味をモデル化するために,クロスモーダルエンコーダにコントラスト学習手法を導入する。
論文 参考訳(メタデータ) (2023-05-23T08:53:36Z) - Beyond Triplet: Leveraging the Most Data for Multimodal Machine
Translation [53.342921374639346]
マルチモーダル機械翻訳は、視覚などの他のモーダルからの情報を取り入れることで、翻訳品質を向上させることを目的としている。
従来のMMTシステムは主に視覚情報へのアクセスと利用に重点を置いており、画像関連データセット上でそれらの手法を検証する傾向がある。
本稿では,MTのための新しい手法と新しいデータセットを確立する。
論文 参考訳(メタデータ) (2022-12-20T15:02:38Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z) - MultiSubs: A Large-scale Multimodal and Multilingual Dataset [32.48454703822847]
本稿では,単語から画像への接地の研究を容易にすることを目的とした,大規模マルチモーダル・多言語データセットを提案する。
データセットは、映画の字幕から文章で表現された概念を曖昧に描写するために選択された画像からなる。
i) 空白を埋める, (ii) 語彙変換という2つの自動タスクにおけるデータセットの有用性を示す。
論文 参考訳(メタデータ) (2021-03-02T18:09:07Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。