論文の概要: Pay Better Attention to Attention: Head Selection in Multilingual and
Multi-Domain Sequence Modeling
- arxiv url: http://arxiv.org/abs/2106.10840v1
- Date: Mon, 21 Jun 2021 04:03:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-23 02:21:01.026433
- Title: Pay Better Attention to Attention: Head Selection in Multilingual and
Multi-Domain Sequence Modeling
- Title(参考訳): 注意に注意を払う:多言語および多ドメインシーケンスモデリングにおける頭部選択
- Authors: Hongyu Gong, Yun Tang, Juan Pino, Xian Li
- Abstract要約: 非選択的な注意共有は、言語やドメインをまたいだ優れた一般化を実現するためのサブ最適である。
このアプローチでは,言語やドメイン間の干渉を軽減するために,共有された特別な注意点を自動的に学習する。
音声からテキストへの翻訳では、多言語設定では言語方向が13ドル、多言語設定では3ドル以上のドメインが3ドル以上のBLEUが平均$+2.0$となる。
- 参考スコア(独自算出の注目度): 26.96631881537262
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-head attention has each of the attention heads collect salient
information from different parts of an input sequence, making it a powerful
mechanism for sequence modeling. Multilingual and multi-domain learning are
common scenarios for sequence modeling, where the key challenge is to maximize
positive transfer and mitigate negative transfer across languages and domains.
In this paper, we find that non-selective attention sharing is sub-optimal for
achieving good generalization across all languages and domains. We further
propose attention sharing strategies to facilitate parameter sharing and
specialization in multilingual and multi-domain sequence modeling. Our approach
automatically learns shared and specialized attention heads for different
languages and domains to mitigate their interference. Evaluated in various
tasks including speech recognition, text-to-text and speech-to-text
translation, the proposed attention sharing strategies consistently bring gains
to sequence models built upon multi-head attention. For speech-to-text
translation, our approach yields an average of $+2.0$ BLEU over $13$ language
directions in multilingual setting and $+2.0$ BLEU over $3$ domains in
multi-domain setting.
- Abstract(参考訳): マルチヘッドアテンションは、各アテンションヘッドが入力シーケンスの異なる部分からサルエント情報を収集するので、シーケンスモデリングの強力なメカニズムとなる。
多言語および多ドメイン学習はシーケンスモデリングの一般的なシナリオであり、正の転送を最大化し、言語とドメイン間の負の転送を緩和することが重要な課題である。
本稿では,非選択的な注意共有が,すべての言語やドメインにまたがる優れた一般化を実現するためのサブ最適であることを示す。
さらに,多言語およびマルチドメインシーケンスモデリングにおけるパラメータ共有と特殊化を容易にするための注意共有戦略を提案する。
我々のアプローチは、それらの干渉を軽減するために、異なる言語やドメインの共有および専門的な注意ヘッドを自動的に学習する。
提案手法は, 音声認識, テキスト間変換, 音声間翻訳など様々なタスクで評価され, マルチヘッド注意に基づく系列モデルにおいて, 一貫して向上をもたらす。
音声からテキストへの翻訳では、多言語環境では平均で$+2.0$ bleu、多言語環境では$3$よりも$2.0$ bleuとなる。
関連論文リスト
- Intent-Aware Dialogue Generation and Multi-Task Contrastive Learning for Multi-Turn Intent Classification [6.459396785817196]
Chain-of-Intentは、セルフプレイを通じて意図駆動の会話を生成する。
MINT-CLはマルチタスクコントラスト学習を用いたマルチターンインテント分類のためのフレームワークである。
MINT-Eは多言語対応のマルチターンeコマース対話コーパスである。
論文 参考訳(メタデータ) (2024-11-21T15:59:29Z) - Large Language Model for Multi-Domain Translation: Benchmarking and Domain CoT Fine-tuning [55.107329995417786]
大規模言語モデル(LLM)は、目覚ましい一般的な理解と生成能力を示している。
我々は、25のドイツ語$Leftrightarrow$ Englishと22の中国語$Leftrightarrow$ Englishテストセットを特徴とするマルチドメイン翻訳のベンチマークを確立する。
本稿では,LLMの内在的マルチドメインインテリジェンスを活用し,翻訳性能を向上させるためのドメインチェーン・オブ・シント(CoT)ファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T16:15:04Z) - M2QA: Multi-domain Multilingual Question Answering [63.191474328757366]
入力変動に対する一般化と堅牢性は、機械学習研究の核となるデシダータである。
マルチドメイン多言語質問応答ベンチマークであるM2QAを紹介する。
M2QAには、ドイツ語、トルコ語、中国語で13500のSQuAD 2.0スタイルの質問応答インスタンスが含まれている。
論文 参考訳(メタデータ) (2024-07-01T08:48:49Z) - One-for-All: Towards Universal Domain Translation with a Single StyleGAN [86.33216867136639]
視覚的に異なる領域間の表現を変換するための新しい翻訳モデルUniTranslatorを提案する。
提案したUniTranslatorは汎用的で、スタイルミキシング、スタイリゼーション、翻訳など様々なタスクを実行できる。
UniTranslatorは、既存の汎用モデルの性能を超越し、代表タスクの特殊モデルに対してよく機能する。
論文 参考訳(メタデータ) (2023-10-22T08:02:55Z) - Domain Private Transformers for Multi-Domain Dialog Systems [2.7013801448234367]
本稿では、条件付き言語モデルがドメイン間でリークする確率を定量化する新しい方法として、ドメインプライバシを提案する。
メンバシップ推論攻撃実験により,本手法は,近年の微分プライベート言語モデルに応用された手法に匹敵するレジリエンスを有することが示された。
論文 参考訳(メタデータ) (2023-05-23T16:27:12Z) - PaLM-E: An Embodied Multimodal Language Model [101.29116156731762]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。
我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。
562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文 参考訳(メタデータ) (2023-03-06T18:58:06Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - MDAPT: Multilingual Domain Adaptive Pretraining in a Single Model [17.566140528671134]
一つの多言語ドメイン固有モデルが一般的な多言語モデルより優れていることを示す。
本稿では,言語モデルがドメイン固有かつ多言語的になるような事前学習コーパスを構成するための様々な手法を提案する。
論文 参考訳(メタデータ) (2021-09-14T11:50:26Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Learning Multilingual Representation for Natural Language Understanding
with Enhanced Cross-Lingual Supervision [42.724921817550516]
そこで本稿では,MAの代替として,DA(Decomposed attention)というネットワークを提案する。
DAは言語内注意(IA)と言語間注意(CA)から構成されており、それぞれ言語内および言語間監督をモデル化している。
様々な言語間自然言語理解タスクの実験により、提案したアーキテクチャと学習戦略がモデルの言語間移動性を大幅に改善することが示された。
論文 参考訳(メタデータ) (2021-06-09T16:12:13Z) - First Align, then Predict: Understanding the Cross-Lingual Ability of
Multilingual BERT [2.2931318723689276]
言語間移動は、ある言語への関心のタスクを微調整し、ある言語を個別に評価することから生じる。
多言語bertは,マルチリンガルエンコーダとタスク固有言語非依存予測器の2つのサブネットワークの積み重ねと見なすことができる。
エンコーダは言語間移動に不可欠であり、微調整中はほとんど変化しないが、タスク予測器は転写にほとんど重要ではなく、微調整時に赤くなる。
論文 参考訳(メタデータ) (2021-01-26T22:12:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。