論文の概要: MSCTD: A Multimodal Sentiment Chat Translation Dataset
- arxiv url: http://arxiv.org/abs/2202.13645v1
- Date: Mon, 28 Feb 2022 09:40:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-01 15:34:28.451298
- Title: MSCTD: A Multimodal Sentiment Chat Translation Dataset
- Title(参考訳): MSCTD:マルチモーダル感性チャット翻訳データセット
- Authors: Yunlong Liang, Fandong Meng, Jinan Xu, Yufeng Chen and Jie Zhou
- Abstract要約: マルチモーダルチャット翻訳(MCT)という新しいタスクを導入する。
MCTは、関連する対話履歴と視覚的コンテキストの助けを借りて、より正確な翻訳を生成することを目的としている。
本研究は,マルチモーダルチャット翻訳とマルチモーダル対話感情分析の両方の研究を容易にする。
- 参考スコア(独自算出の注目度): 66.81525961469494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal machine translation and textual chat translation have received
considerable attention in recent years. Although the conversation in its
natural form is usually multimodal, there still lacks work on multimodal
machine translation in conversations. In this work, we introduce a new task
named Multimodal Chat Translation (MCT), aiming to generate more accurate
translations with the help of the associated dialogue history and visual
context. To this end, we firstly construct a Multimodal Sentiment Chat
Translation Dataset (MSCTD) containing 142,871 English-Chinese utterance pairs
in 14,762 bilingual dialogues and 30,370 English-German utterance pairs in
3,079 bilingual dialogues. Each utterance pair, corresponding to the visual
context that reflects the current conversational scene, is annotated with a
sentiment label. Then, we benchmark the task by establishing multiple baseline
systems that incorporate multimodal and sentiment features for MCT. Preliminary
experiments on four language directions (English-Chinese and English-German)
verify the potential of contextual and multimodal information fusion and the
positive impact of sentiment on the MCT task. Additionally, as a by-product of
the MSCTD, it also provides two new benchmarks on multimodal dialogue sentiment
analysis. Our work can facilitate research on both multimodal chat translation
and multimodal dialogue sentiment analysis.
- Abstract(参考訳): 近年,マルチモーダル機械翻訳とテキストチャット翻訳が注目されている。
自然な形式の会話は、通常マルチモーダルであるが、会話におけるマルチモーダル機械翻訳の作業が不足している。
本稿では,対話履歴と視覚的コンテキストの助けを借りて,より正確な翻訳を実現するための,MCT(Multimodal Chat Translation)というタスクを紹介する。
そこで我々はまず,14,762のバイリンガル対話で142,871の英和発話対,30,370の英独発話対をバイリンガル対話で3,079のマルチモーダル感性チャット翻訳データセット(MSCTD)を構築した。
現在の会話シーンを反映した視覚的コンテキストに対応する各発話ペアには、感情ラベルが付記される。
次に,マルチモーダルと感情を組み込んだマルチベースラインシステムを構築し,タスクのベンチマークを行う。
4つの言語方向(英語、中国語、英語、ドイツ語)に関する予備実験は、文脈情報融合やマルチモーダル情報融合の可能性を検証し、MDTタスクに対する感情のポジティブな影響を検証する。
さらに、MSCTDの副産物として、マルチモーダルな対話感情分析に関する2つの新しいベンチマークも提供する。
本研究は,マルチモーダルチャット翻訳とマルチモーダル対話感情分析の両方の研究を促進する。
関連論文リスト
- TMT: Tri-Modal Translation between Speech, Image, and Text by Processing
Different Modalities as Different Languages [96.8603701943286]
Tri-Modal Translation (TMT) モデルは、音声、画像、テキストにまたがる任意のモダリティを翻訳する。
音声と画像データを個別のトークンにトークン化し、モダリティをまたいだ統一インターフェースを提供する。
TMTは単一モデルの性能を一貫して上回っている。
論文 参考訳(メタデータ) (2024-02-25T07:46:57Z) - Which One Are You Referring To? Multimodal Object Identification in
Situated Dialogue [50.279206765971125]
本稿では,会話や状況から多モーダル入力を解釈する3つの手法について検討する。
最適手法であるシーン対話アライメントは,SIMMC 2.1ベースラインと比較して20%F1スコアで性能を向上する。
論文 参考訳(メタデータ) (2023-02-28T15:45:20Z) - LVP-M3: Language-aware Visual Prompt for Multilingual Multimodal Machine
Translation [94.33019040320507]
マルチモーダル機械翻訳(MMT)は、視覚的特徴を持つテキストのみの翻訳を強化することに焦点を当てている。
最近の進歩は、各言語ペアごとに別々のモデルをトレーニングすることに苦慮している。
7つの言語をカバーする2つのMultilingual MMTベンチマークデータセットを確立することで,Multilingual MMTタスクを提案する。
論文 参考訳(メタデータ) (2022-10-19T12:21:39Z) - Multi2WOZ: A Robust Multilingual Dataset and Conversational Pretraining
for Task-Oriented Dialog [67.20796950016735]
Multi2WOZデータセットは、中国語、ドイツ語、アラビア語、ロシア語の4つの言語にまたがる。
本稿では,任意の下流TODタスクに対する言語間移動を容易にすることを目的とした,事前学習言語モデル(PrLM)の多言語会話特化のための新しいフレームワークを提案する。
実験の結果,目標言語における(I)会話の特殊化と,(II)具体的なTODタスクのための少数ショット転送の組み合わせが,ほとんどの場合,最高の性能を示すことがわかった。
論文 参考訳(メタデータ) (2022-05-20T18:35:38Z) - M3ED: Multi-modal Multi-scene Multi-label Emotional Dialogue Database [139.08528216461502]
マルチモーダルマルチシーンマルチラベル感情対話データセットM3EDを提案する。
M3EDには56の異なるテレビシリーズの990のダイアドの感情対話があり、合計9,082回、24,449発の発声がある。
我々の知る限りでは、M3EDは中国語における最初のマルチモーダル感情対話データセットである。
論文 参考訳(メタデータ) (2022-05-09T06:52:51Z) - Modeling Bilingual Conversational Characteristics for Neural Chat
Translation [24.94474722693084]
上記の特性をモデル化して会話テキストの翻訳品質を高めることを目的としている。
我々は、ベンチマークデータセットBConTrasT(英語-ドイツ語)と、BMELD(英語-中国語)という自己コンパイルバイリンガル対話コーパスに対するアプローチを評価した。
我々のアプローチは,強いベースラインよりも高いマージンで性能を向上し,BLEUとTERの観点から,最先端のコンテキスト対応NMTモデルを大幅に上回っている。
論文 参考訳(メタデータ) (2021-07-23T12:23:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。