論文の概要: Bandits Don't Follow Rules: Balancing Multi-Facet Machine Translation
with Multi-Armed Bandits
- arxiv url: http://arxiv.org/abs/2110.06997v1
- Date: Wed, 13 Oct 2021 19:16:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-16 09:44:52.580250
- Title: Bandits Don't Follow Rules: Balancing Multi-Facet Machine Translation
with Multi-Armed Bandits
- Title(参考訳): Bandits don't Follow Rules: Balancing Multi-Facet Machine Translation with Multi-Armed Bandits
- Authors: Julia Kreutzer, David Vilar, Artem Sokolov
- Abstract要約: 機械翻訳(MT)の訓練データは、自然界で多面的な多数の大きなコーパスから得られることが多い。
本稿では,MTモデルパラメータと協調してこのバランスを最適化し,システム開発者が手動のスケジュール設計から解放することを提案する。
- 参考スコア(独自算出の注目度): 13.779399290545705
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training data for machine translation (MT) is often sourced from a multitude
of large corpora that are multi-faceted in nature, e.g. containing contents
from multiple domains or different levels of quality or complexity. Naturally,
these facets do not occur with equal frequency, nor are they equally important
for the test scenario at hand. In this work, we propose to optimize this
balance jointly with MT model parameters to relieve system developers from
manual schedule design. A multi-armed bandit is trained to dynamically choose
between facets in a way that is most beneficial for the MT system. We evaluate
it on three different multi-facet applications: balancing translationese and
natural training data, or data from multiple domains or multiple language
pairs. We find that bandit learning leads to competitive MT systems across
tasks, and our analysis provides insights into its learned strategies and the
underlying data sets.
- Abstract(参考訳): 機械翻訳(MT)のトレーニングデータはしばしば、複数のドメインからのコンテンツや異なるレベルの品質や複雑さを含むような、本質的に多面的な多数の大きなコーパスから得られる。
当然、これらのファセットは等しい周波数で発生しないし、テストシナリオでも同様に重要でもない。
本研究では,MTモデルパラメータと協調してこのバランスを最適化し,システム開発者が手動のスケジュール設計から解放することを提案する。
マルチアームのバンディットは、MTシステムにとって最も有益な方法で、ファセットの選択を動的に行うように訓練される。
我々は、翻訳データと自然学習データのバランスをとる3つの異なる多面体アプリケーション、または複数のドメインまたは複数の言語ペアのデータを評価する。
バンディット学習はタスク間の競争的なMTシステムにつながり、分析は学習戦略と基盤となるデータセットに関する洞察を提供する。
関連論文リスト
- Towards Zero-Shot Multimodal Machine Translation [64.9141931372384]
本稿では,マルチモーダル機械翻訳システムの学習において,完全教師付きデータの必要性を回避する手法を提案する。
我々の手法はZeroMMTと呼ばれ、2つの目的の混合で学習することで、強いテキストのみの機械翻訳(MT)モデルを適応させることである。
本手法が完全に教師付きトレーニングデータを持たない言語に一般化されることを証明するため,CoMMuTE評価データセットをアラビア語,ロシア語,中国語の3言語に拡張した。
論文 参考訳(メタデータ) (2024-07-18T15:20:31Z) - Incorporating Probing Signals into Multimodal Machine Translation via
Visual Question-Answering Pairs [45.41083125321069]
マルチモーダル機械翻訳(MMT)システムは、テキスト入力が完了すると視覚情報に対する感度が低下する。
ソーステキストからVQAスタイルのペアを並列に生成する手法が提案されている。
MMT-VQAマルチタスク学習フレームワークを導入し、データセットからの明示的な探索信号をMTトレーニングプロセスに組み込む。
論文 参考訳(メタデータ) (2023-10-26T04:13:49Z) - Revisiting Machine Translation for Cross-lingual Classification [91.43729067874503]
この分野のほとんどの研究は、機械翻訳コンポーネントではなく多言語モデルに焦点を当てている。
より強力なMTシステムを用いて、原文のトレーニングと機械翻訳テキストの推論のミスマッチを緩和することにより、翻訳テストは以前想定していたよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-23T16:56:10Z) - Perturbation-based QE: An Explainable, Unsupervised Word-level Quality
Estimation Method for Blackbox Machine Translation [12.376309678270275]
摂動に基づくQEは、単に摂動入力元文上で出力されるMTシステムを分析することで機能する。
我々のアプローチは、教師付きQEよりも、翻訳における性別バイアスや単語センスの曖昧さの誤りを検出するのに優れている。
論文 参考訳(メタデータ) (2023-05-12T13:10:57Z) - Beyond Triplet: Leveraging the Most Data for Multimodal Machine
Translation [53.342921374639346]
マルチモーダル機械翻訳は、視覚などの他のモーダルからの情報を取り入れることで、翻訳品質を向上させることを目的としている。
従来のMMTシステムは主に視覚情報へのアクセスと利用に重点を置いており、画像関連データセット上でそれらの手法を検証する傾向がある。
本稿では,MTのための新しい手法と新しいデータセットを確立する。
論文 参考訳(メタデータ) (2022-12-20T15:02:38Z) - Uncertainty-Aware Balancing for Multilingual and Multi-Domain Neural
Machine Translation Training [58.72619374790418]
MultiUATはモデルの不確実性に基づいてトレーニングデータの使用量を動的に調整する。
クロスドメイン転送を解析し、静的および類似性に基づく手法の欠如を示す。
論文 参考訳(メタデータ) (2021-09-06T08:30:33Z) - DORB: Dynamically Optimizing Multiple Rewards with Bandits [101.68525259222164]
政策に基づく強化学習は、言語生成タスクにおいて、微分不可能な評価指標を最適化するための有望なアプローチであることが証明されている。
We use the Exp3 algorithm for bandit and formulate two approach for bandit rewards: (1) Single Multi-reward Bandit (SM-Bandit), (2) Hierarchical Multi-reward Bandit (HM-Bandit)
我々は,2つの重要なNLGタスクにおいて,様々な自動計測と人的評価を通じて,我々のアプローチの有効性を実証的に示す。
論文 参考訳(メタデータ) (2020-11-15T21:57:47Z) - Balancing Training for Multilingual Neural Machine Translation [130.54253367251738]
多言語機械翻訳(MT)モデルは、複数の言語に翻訳/翻訳することができる。
標準的なプラクティスは、表現力を高めるために、リソースの少ない言語をアップサンプルすることである。
そこで本研究では,データスコアラによるトレーニングデータの重み付けを自動的に学習する手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T18:23:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。