論文の概要: Improving Neural Cross-Lingual Summarization via Employing Optimal
Transport Distance for Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2112.03473v1
- Date: Tue, 7 Dec 2021 03:45:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-09 02:03:49.838684
- Title: Improving Neural Cross-Lingual Summarization via Employing Optimal
Transport Distance for Knowledge Distillation
- Title(参考訳): 知識蒸留のための最適輸送距離を用いた神経言語横断要約の改善
- Authors: Thong Nguyen, Luu Anh Tuan
- Abstract要約: 言語間の要約モデルは、2つの言語のトークン間での自己認識機構に依存している。
本稿では,言語間要約のための知識蒸留に基づく新しいフレームワークを提案する。
提案手法は,高解像度および低出力の条件下での最先端モデルよりも優れる。
- 参考スコア(独自算出の注目度): 8.718749742587857
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current state-of-the-art cross-lingual summarization models employ multi-task
learning paradigm, which works on a shared vocabulary module and relies on the
self-attention mechanism to attend among tokens in two languages. However,
correlation learned by self-attention is often loose and implicit, inefficient
in capturing crucial cross-lingual representations between languages. The
matter worsens when performing on languages with separate morphological or
structural features, making the cross-lingual alignment more challenging,
resulting in the performance drop. To overcome this problem, we propose a novel
Knowledge-Distillation-based framework for Cross-Lingual Summarization, seeking
to explicitly construct cross-lingual correlation by distilling the knowledge
of the monolingual summarization teacher into the cross-lingual summarization
student. Since the representations of the teacher and the student lie on two
different vector spaces, we further propose a Knowledge Distillation loss using
Sinkhorn Divergence, an Optimal-Transport distance, to estimate the discrepancy
between those teacher and student representations. Due to the intuitively
geometric nature of Sinkhorn Divergence, the student model can productively
learn to align its produced cross-lingual hidden states with monolingual hidden
states, hence leading to a strong correlation between distant languages.
Experiments on cross-lingual summarization datasets in pairs of distant
languages demonstrate that our method outperforms state-of-the-art models under
both high and low-resourced settings.
- Abstract(参考訳): 現在の最先端のクロスリンガル要約モデルは、共有語彙モジュールで動作するマルチタスク学習パラダイムを採用しており、2つの言語におけるトークン間の自己照応機構に依存している。
しかし、自己言及によって学習される相関は、しばしば緩く暗黙的であり、言語間の重要な言語間表現を捉えるのに非効率である。
形態的あるいは構造的な特徴の異なる言語で実行すると、問題は悪化し、言語間のアライメントが難しくなり、結果としてパフォーマンスが低下する。
この問題を解決するために,単言語要約教師の知識を言語間要約学習者に蒸留することにより,言語間相関を明示的に構築することを目的とした,言語間要約のための知識蒸留ベースのフレームワークを提案する。
教師と生徒の表現は2つの異なるベクトル空間上に置かれているため,教師と学生の表現の相違を推定するために,最適-輸送距離であるシンクホーン拡散を用いた知識蒸留損失を提案する。
Sinkhorn Divergenceの直感的に幾何学的な性質のため、学生モデルは、生成した言語間隠れ状態とモノリンガル隠れ状態との整合性を生産的に学習することができる。
遠隔言語ペアにおける言語横断要約データセットの実験により,高レベルおよび低ソース設定下での最先端モデルよりも優れた結果が得られる。
関連論文リスト
- HC$^2$L: Hybrid and Cooperative Contrastive Learning for Cross-lingual Spoken Language Understanding [45.12153788010354]
言語間言語理解のための最先端モデルでは、言語間非教師付きコントラスト学習を行う。
この問題に対処するために,ハイブリッド・協調型コントラスト学習を提案する。
論文 参考訳(メタデータ) (2024-05-10T02:40:49Z) - Improving In-context Learning of Multilingual Generative Language Models with Cross-lingual Alignment [42.624862172666624]
本稿では,一対の翻訳文を利用する単純な言語間アライメントフレームワークを提案する。
多言語コントラスト学習を通じて、異なる言語にまたがる内部文表現を整合させる。
実験結果から,事前学習トークンが0.1文未満であっても,アライメントフレームワークは生成言語モデルの言語間相互性を大幅に向上させることが明らかとなった。
論文 参考訳(メタデータ) (2023-11-14T11:24:08Z) - VECO 2.0: Cross-lingual Language Model Pre-training with
Multi-granularity Contrastive Learning [56.47303426167584]
複数粒度アライメントを持つコントラスト学習に基づく言語間事前学習モデルVECO2.0を提案する。
具体的には、シーケンス・ツー・シーケンスアライメントが誘導され、並列対の類似性を最大化し、非並列対を最小化する。
トークン・ツー・トークンのアライメントは、シソーラス辞書を介して発掘された同義トークンと、バイリンガルな例の他の未使用トークンとのギャップを埋めるために統合される。
論文 参考訳(メタデータ) (2023-04-17T12:23:41Z) - Cross-Align: Modeling Deep Cross-lingual Interactions for Word Alignment [63.0407314271459]
提案したCross-Alignは、5つの言語ペアのうち4つで最先端(SOTA)のパフォーマンスを達成する。
実験の結果,提案したCross-Alignは5つの言語ペアのうち4つで最先端(SOTA)のパフォーマンスを達成することがわかった。
論文 参考訳(メタデータ) (2022-10-09T02:24:35Z) - Learning Multilingual Representation for Natural Language Understanding
with Enhanced Cross-Lingual Supervision [42.724921817550516]
そこで本稿では,MAの代替として,DA(Decomposed attention)というネットワークを提案する。
DAは言語内注意(IA)と言語間注意(CA)から構成されており、それぞれ言語内および言語間監督をモデル化している。
様々な言語間自然言語理解タスクの実験により、提案したアーキテクチャと学習戦略がモデルの言語間移動性を大幅に改善することが示された。
論文 参考訳(メタデータ) (2021-06-09T16:12:13Z) - Lightweight Cross-Lingual Sentence Representation Learning [57.9365829513914]
メモリ効率のよい言語間文表現を生成するために,2層のみの軽量なデュアルトランスフォーマーアーキテクチャを導入する。
本稿では,既存のシングルワードマスキング言語モデルと,新たに提案されたクロスランガルトークンレベルの再構築タスクを組み合わせた,新しい言語間言語モデルを提案する。
論文 参考訳(メタデータ) (2021-05-28T14:10:48Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Cross-lingual Spoken Language Understanding with Regularized
Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。
言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-30T08:56:53Z) - InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language
Model Pre-Training [135.12061144759517]
本稿では,言語間言語モデルの事前学習を定式化する情報理論フレームワークを提案する。
コントラスト学習に基づく新しい事前学習課題を提案する。
単言語コーパスと並列コーパスの両方を活用することで、事前訓練されたモデルの言語間変換性を向上させるために、プレテキストを共同で訓練する。
論文 参考訳(メタデータ) (2020-07-15T16:58:01Z) - A Deep Reinforced Model for Zero-Shot Cross-Lingual Summarization with
Bilingual Semantic Similarity Rewards [40.17497211507507]
言語間テキスト要約は、実際は重要だが未探索の課題である。
本稿では,エンドツーエンドのテキスト要約モデルを提案する。
論文 参考訳(メタデータ) (2020-06-27T21:51:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。