論文の概要: How Does Pretraining Improve Discourse-Aware Translation?
- arxiv url: http://arxiv.org/abs/2305.19847v1
- Date: Wed, 31 May 2023 13:36:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 16:21:30.274209
- Title: How Does Pretraining Improve Discourse-Aware Translation?
- Title(参考訳): 事前学習は談話認識翻訳をどのように改善するか?
- Authors: Zhihong Huang, Longyue Wang, Siyou Liu, Derek F. Wong
- Abstract要約: 本稿では,事前学習した言語モデルが会話関係の知識を捉える能力を理解するための探索タスクを提案する。
我々は、エンコーダ-、デコーダ-、およびエンコーダ-デコーダ-ベースモデルの3つの最先端PLMを検証する。
本研究は, PLMにおける言論的知識が下流作業にどのように機能するか, どのように機能するかを理解するための指導的手法である。
- 参考スコア(独自算出の注目度): 41.20896077662125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pretrained language models (PLMs) have produced substantial improvements in
discourse-aware neural machine translation (NMT), for example, improved
coherence in spoken language translation. However, the underlying reasons for
their strong performance have not been well explained. To bridge this gap, we
introduce a probing task to interpret the ability of PLMs to capture discourse
relation knowledge. We validate three state-of-the-art PLMs across encoder-,
decoder-, and encoder-decoder-based models. The analysis shows that (1) the
ability of PLMs on discourse modelling varies from architecture and layer; (2)
discourse elements in a text lead to different learning difficulties for PLMs.
Besides, we investigate the effects of different PLMs on spoken language
translation. Through experiments on IWSLT2017 Chinese-English dataset, we
empirically reveal that NMT models initialized from different layers of PLMs
exhibit the same trends with the probing task. Our findings are instructive to
understand how and when discourse knowledge in PLMs should work for downstream
tasks.
- Abstract(参考訳): プレトレーニング言語モデル(PLM)は、例えば音声言語翻訳におけるコヒーレンスの改善など、談話認識ニューラルマシン翻訳(NMT)を大幅に改善した。
しかし、その性能の根本的な理由はよく説明されていない。
このギャップを埋めるために,PLMの会話関係知識を捉える能力を理解するための探索タスクを導入する。
我々は,エンコーダモデル,デコーダモデル,エンコーダデコーダモデルにまたがる3つの最先端plmを検証する。
分析の結果,(1)談話モデルにおけるPLMの能力は,建築や層によって異なり,(2)文章中の談話要素はPLMの学習困難度が異なることがわかった。
さらに,異なるPLMが音声翻訳に与える影響についても検討する。
iwslt2017中国英語データセットの実験を通じて、異なるplm層から初期化されたnmtモデルが、同じ傾向を示すことが実証的に明らかになった。
本研究は, PLMにおける言論的知識が下流作業にどのように役立つかを理解するための指導である。
関連論文リスト
- Adapting Large Language Models for Document-Level Machine Translation [49.74879186939818]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて大きな進歩を遂げている。
近年の研究では、中程度のLLMはタスク固有の微調整の後、より大きなLLMよりも優れていることが示されている。
論文 参考訳(メタデータ) (2024-01-12T09:29:13Z) - Speech Translation with Large Language Models: An Industrial Practice [64.5419534101104]
LLM-STは,事前学習型大言語モデル(LLM)に基づいて構築された,新規で効果的な音声翻訳モデルである。
大規模言語モデル(LLM)を音声エンコーダと統合し、マルチタスクの命令チューニングを利用することで、LLM-STは正確なタイムスタンプと翻訳を生成することができる。
英語と中国語のデータセットの厳密な実験を通じて,LLM-STの異常な性能を示す。
論文 参考訳(メタデータ) (2023-12-21T05:32:49Z) - Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。
自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。
このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文 参考訳(メタデータ) (2023-10-10T03:06:38Z) - A Comparative Analysis of Pretrained Language Models for Text-to-Speech [13.962029761484022]
State-of-the-the-art text-to-speech (TTS) システムは、韻律を高め、より自然な音声を生成するために、事前訓練された言語モデル(PLM)を利用している。
PLMは自然言語理解(NLU)のために広く研究されているが、TSへの影響は見過ごされている。
本研究は、異なるPLMがTSに与える影響を調査する最初の研究である。
論文 参考訳(メタデータ) (2023-09-04T13:02:27Z) - Assessing Phrase Break of ESL Speech with Pre-trained Language Models
and Large Language Models [7.782346535009883]
本研究では,事前学習言語モデル (PLM) と大規模言語モデル (LLM) を用いて,ESL学習者の音声における句分割の評価手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T07:10:39Z) - Masked and Permuted Implicit Context Learning for Scene Text Recognition [8.742571493814326]
シーン認識(STR)は、テキストスタイル、形状、背景の変化のため困難である。
単一のデコーダ内において、STRのためのマスク付き暗黙的文脈学習ネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-25T15:31:02Z) - Towards Versatile and Efficient Visual Knowledge Integration into
Pre-trained Language Models with Cross-Modal Adapters [16.44174900423759]
我々は,事前学習された視覚言語モデルで学習した視覚的およびテキスト的知識を活用するために,新しいプラグイン・アンド・プレイ・モジュールであるX-adapterを提案する。
提案手法は,オブジェクト指向推論および自然言語理解タスクの性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-05-12T10:08:46Z) - Document-Level Machine Translation with Large Language Models [91.03359121149595]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対して、一貫性、凝集性、関連性、流動性のある回答を生成することができる。
本稿では,LLMの談話モデルにおける能力について詳細に評価する。
論文 参考訳(メタデータ) (2023-04-05T03:49:06Z) - ElitePLM: An Empirical Study on General Language Ability Evaluation of
Pretrained Language Models [78.08792285698853]
本稿では,事前学習型言語モデル(ElitePLM)の汎用言語能力評価に関する大規模実証的研究について述べる。
実験の結果,(1)訓練対象の異なるPLMは異なる能力試験に適しており,(2)下流タスクの微調整PLMはデータサイズや分布に敏感であり,(3)PLMは類似タスク間の転送性に優れていた。
論文 参考訳(メタデータ) (2022-05-03T14:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。