論文の概要: How Does Pretraining Improve Discourse-Aware Translation?
- arxiv url: http://arxiv.org/abs/2305.19847v1
- Date: Wed, 31 May 2023 13:36:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 16:21:30.274209
- Title: How Does Pretraining Improve Discourse-Aware Translation?
- Title(参考訳): 事前学習は談話認識翻訳をどのように改善するか?
- Authors: Zhihong Huang, Longyue Wang, Siyou Liu, Derek F. Wong
- Abstract要約: 本稿では,事前学習した言語モデルが会話関係の知識を捉える能力を理解するための探索タスクを提案する。
我々は、エンコーダ-、デコーダ-、およびエンコーダ-デコーダ-ベースモデルの3つの最先端PLMを検証する。
本研究は, PLMにおける言論的知識が下流作業にどのように機能するか, どのように機能するかを理解するための指導的手法である。
- 参考スコア(独自算出の注目度): 41.20896077662125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pretrained language models (PLMs) have produced substantial improvements in
discourse-aware neural machine translation (NMT), for example, improved
coherence in spoken language translation. However, the underlying reasons for
their strong performance have not been well explained. To bridge this gap, we
introduce a probing task to interpret the ability of PLMs to capture discourse
relation knowledge. We validate three state-of-the-art PLMs across encoder-,
decoder-, and encoder-decoder-based models. The analysis shows that (1) the
ability of PLMs on discourse modelling varies from architecture and layer; (2)
discourse elements in a text lead to different learning difficulties for PLMs.
Besides, we investigate the effects of different PLMs on spoken language
translation. Through experiments on IWSLT2017 Chinese-English dataset, we
empirically reveal that NMT models initialized from different layers of PLMs
exhibit the same trends with the probing task. Our findings are instructive to
understand how and when discourse knowledge in PLMs should work for downstream
tasks.
- Abstract(参考訳): プレトレーニング言語モデル(PLM)は、例えば音声言語翻訳におけるコヒーレンスの改善など、談話認識ニューラルマシン翻訳(NMT)を大幅に改善した。
しかし、その性能の根本的な理由はよく説明されていない。
このギャップを埋めるために,PLMの会話関係知識を捉える能力を理解するための探索タスクを導入する。
我々は,エンコーダモデル,デコーダモデル,エンコーダデコーダモデルにまたがる3つの最先端plmを検証する。
分析の結果,(1)談話モデルにおけるPLMの能力は,建築や層によって異なり,(2)文章中の談話要素はPLMの学習困難度が異なることがわかった。
さらに,異なるPLMが音声翻訳に与える影響についても検討する。
iwslt2017中国英語データセットの実験を通じて、異なるplm層から初期化されたnmtモデルが、同じ傾向を示すことが実証的に明らかになった。
本研究は, PLMにおける言論的知識が下流作業にどのように役立つかを理解するための指導である。
関連論文リスト
- TasTe: Teaching Large Language Models to Translate through Self-Reflection [82.83958470745381]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な性能を示した。
本稿では,自己回帰を通した翻訳を行うTasTeフレームワークを提案する。
WMT22ベンチマークにおける4つの言語方向の評価結果から,既存の手法と比較して,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-06-12T17:21:21Z) - Adapting Large Language Models for Document-Level Machine Translation [46.370862171452444]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを大幅に進歩させた。
近年の研究では、中程度のLLMはタスク固有の微調整後、より大きなLLMよりも優れていることが示されている。
本研究では,特定の言語対に対する文書レベルの機械翻訳(DocMT)にLLMを適用することに焦点を当てた。
論文 参考訳(メタデータ) (2024-01-12T09:29:13Z) - Speech Translation with Large Language Models: An Industrial Practice [64.5419534101104]
LLM-STは,事前学習型大言語モデル(LLM)に基づいて構築された,新規で効果的な音声翻訳モデルである。
大規模言語モデル(LLM)を音声エンコーダと統合し、マルチタスクの命令チューニングを利用することで、LLM-STは正確なタイムスタンプと翻訳を生成することができる。
英語と中国語のデータセットの厳密な実験を通じて,LLM-STの異常な性能を示す。
論文 参考訳(メタデータ) (2023-12-21T05:32:49Z) - Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。
自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。
このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文 参考訳(メタデータ) (2023-10-10T03:06:38Z) - From Language Modeling to Instruction Following: Understanding the Behavior Shift in LLMs after Instruction Tuning [63.63840740526497]
そこで本研究では,本質的な変化に着目した事前学習モデルの調整方法について検討する。
次に、事前訓練されたモデルと命令調整されたモデルから導かれた説明を比較することで、命令チューニングの影響について研究する。
この結果から,指導指導の3つの重要な影響が明らかになった。
論文 参考訳(メタデータ) (2023-09-30T21:16:05Z) - A Comparative Analysis of Pretrained Language Models for Text-to-Speech [13.962029761484022]
State-of-the-the-art text-to-speech (TTS) システムは、韻律を高め、より自然な音声を生成するために、事前訓練された言語モデル(PLM)を利用している。
PLMは自然言語理解(NLU)のために広く研究されているが、TSへの影響は見過ごされている。
本研究は、異なるPLMがTSに与える影響を調査する最初の研究である。
論文 参考訳(メタデータ) (2023-09-04T13:02:27Z) - Towards Versatile and Efficient Visual Knowledge Integration into
Pre-trained Language Models with Cross-Modal Adapters [16.44174900423759]
我々は,事前学習された視覚言語モデルで学習した視覚的およびテキスト的知識を活用するために,新しいプラグイン・アンド・プレイ・モジュールであるX-adapterを提案する。
提案手法は,オブジェクト指向推論および自然言語理解タスクの性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-05-12T10:08:46Z) - Document-Level Machine Translation with Large Language Models [91.03359121149595]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対して、一貫性、凝集性、関連性、流動性のある回答を生成することができる。
本稿では,LLMの談話モデルにおける能力について詳細に評価する。
論文 参考訳(メタデータ) (2023-04-05T03:49:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。