論文の概要: Exploiting Multimodal Reinforcement Learning for Simultaneous Machine
Translation
- arxiv url: http://arxiv.org/abs/2102.11387v1
- Date: Mon, 22 Feb 2021 22:26:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-24 14:03:05.852532
- Title: Exploiting Multimodal Reinforcement Learning for Simultaneous Machine
Translation
- Title(参考訳): 同時機械翻訳のためのマルチモーダル強化学習
- Authors: Julia Ive, Andy Mingren Li, Yishu Miao, Ozan Caglayan, Pranava
Madhyastha, Lucia Specia
- Abstract要約: a)高い翻訳品質と低レイテンシの間の良いトレードオフを学ぶための適応ポリシーと、(b)このプロセスをサポートするための視覚的情報です。
強化学習を用いた同時機械翻訳のマルチモーダルアプローチを提案し、エージェントと環境の両方に視覚情報とテキスト情報を統合する戦略を提案します。
- 参考スコア(独自算出の注目度): 33.698254673743904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the problem of simultaneous machine translation (SiMT)
by exploring two main concepts: (a) adaptive policies to learn a good trade-off
between high translation quality and low latency; and (b) visual information to
support this process by providing additional (visual) contextual information
which may be available before the textual input is produced. For that, we
propose a multimodal approach to simultaneous machine translation using
reinforcement learning, with strategies to integrate visual and textual
information in both the agent and the environment. We provide an exploration on
how different types of visual information and integration strategies affect the
quality and latency of simultaneous translation models, and demonstrate that
visual cues lead to higher quality while keeping the latency low.
- Abstract(参考訳): 本稿では, (a) 高翻訳品質と低レイテンシの良好なトレードオフを学習するための適応ポリシーと, (b) テキスト入力が生成される前に利用可能な追加の(視覚的な)文脈情報を提供することにより, このプロセスを支援する視覚情報とを探索することにより, 同時翻訳(SiMT)の問題に対処する。
そこで、強化学習を用いた同時機械翻訳のマルチモーダルアプローチを提案し、エージェントと環境の両方に視覚情報とテキスト情報を統合する戦略を提案します。
視覚情報と統合戦略の違いが同時翻訳モデルの質とレイテンシにどのように影響するかを探究し、視覚的な手がかりがレイテンシを低く保ちながら高品質に導くことを実証する。
関連論文リスト
- WisdoM: Improving Multimodal Sentiment Analysis by Fusing Contextual
World Knowledge [73.76722241704488]
大規模視覚言語モデル(LVLM)から引き起こされる文脈的世界知識を利用してマルチモーダル感情分析を行うプラグインフレームワークWisdoMを提案する。
我々の手法は、いくつかの最先端手法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-01-12T16:08:07Z) - Exploring Multi-Modal Contextual Knowledge for Open-Vocabulary Object
Detection [72.36017150922504]
教師の融合変換器から学生検出器へ学習した文脈知識を伝達するためのマルチモーダルな文脈知識蒸留フレームワーク MMC-Det を提案する。
多様なマルチモーダルマスキング言語モデリングは、従来のマルチモーダルマスキング言語モデリング(MLM)に基づくオブジェクト分散制約により実現される。
論文 参考訳(メタデータ) (2023-08-30T08:33:13Z) - Increasing Visual Awareness in Multimodal Neural Machine Translation
from an Information Theoretic Perspective [14.100033405711685]
マルチモーダル機械翻訳(MMT)は、原文と対応する画像とを対応付けて翻訳品質を向上させることを目的としている。
本稿では,情報理論の観点から視覚認知を高めることで,MTの性能向上に努める。
論文 参考訳(メタデータ) (2022-10-16T08:11:44Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z) - Supervised Visual Attention for Simultaneous Multimodal Machine
Translation [47.18251159303909]
本稿では,トランスフォーマーを用いた最初の同時機械翻訳(MMT)アーキテクチャを提案する。
我々は、ラベル付きフレーズ領域アライメントを用いて視覚的注意機構を誘導する補助的な監視信号を用いて、このモデルを拡張する。
その結果,教師付き視覚的注意はMTモデルの翻訳品質を常に向上させることがわかった。
論文 参考訳(メタデータ) (2022-01-23T17:25:57Z) - Improving Speech Translation by Understanding and Learning from the
Auxiliary Text Translation Task [26.703809355057224]
我々は,タスクがマルチタスク学習フレームワークにおけるメインタスクに与える影響を理解するために,詳細な分析を行う。
解析により、マルチタスク学習は、異なるモダリティから同様のデコーダ表現を生成する傾向があることを確認した。
これらの知見に触発されて,翻訳品質を向上させる3つの方法を提案する。
論文 参考訳(メタデータ) (2021-07-12T23:53:40Z) - Simultaneous Machine Translation with Visual Context [42.88121241096681]
同時機械翻訳(SiMT)は、連続的な入力テキストストリームを低レイテンシで最高の品質で別の言語に変換することを目的としている。
我々は、様々なマルチモーダルアプローチと視覚的特徴が最先端のSiMTフレームワークに与える影響を分析する。
論文 参考訳(メタデータ) (2020-09-15T18:19:11Z) - Dynamic Context-guided Capsule Network for Multimodal Machine
Translation [131.37130887834667]
マルチモーダル機械翻訳(MMT)は主にテキストのみの翻訳と視覚的特徴の強化に焦点を当てている。
MMTのための新しい動的コンテキスト誘導カプセルネットワーク(DCCN)を提案する。
英語・ドイツ語・英語・フランス語のMulti30Kデータセットによる実験結果から,DCCNの優位性が確認された。
論文 参考訳(メタデータ) (2020-09-04T06:18:24Z) - Towards Multimodal Simultaneous Neural Machine Translation [28.536262015508722]
同時翻訳では、リアルタイム理解を実現するために、話者の発話が完了する前に文章を翻訳する。
このタスクは、復号時に入力情報が不足しているため、一般的な全文翻訳よりもはるかに難しい。
視覚情報を付加的なモダリティとして活用するマルチモーダル同時ニューラルネットワーク翻訳(MSNMT)を提案する。
論文 参考訳(メタデータ) (2020-04-07T08:02:21Z) - Learning Coupled Policies for Simultaneous Machine Translation using
Imitation Learning [85.70547744787]
本稿では,プログラマ-解釈ポリシーを併用した同時翻訳モデルを効率よく学習する手法を提案する。
6つの言語対の実験により,翻訳品質の点で,本手法は高いベースラインを達成できた。
論文 参考訳(メタデータ) (2020-02-11T10:56:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。