論文の概要: Improving Sequence-to-Sequence Pre-training via Sequence Span Rewriting
- arxiv url: http://arxiv.org/abs/2101.00416v1
- Date: Sat, 2 Jan 2021 10:27:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-13 10:33:18.659229
- Title: Improving Sequence-to-Sequence Pre-training via Sequence Span Rewriting
- Title(参考訳): シーケンススパン書き換えによるシーケンス間事前学習の改善
- Authors: Wangchunshu Zhou, Tao Ge, Ke Xu, Furu Wei
- Abstract要約: 本稿では,Sequence Span Rewriting (SSR) を自己教師付きシーケンス・ツー・シーケンス(seq2seq)事前学習目的として提案する。
SSRは、モデルに不完全なスパンを書き直すように監督することで、より細かい学習信号をテキスト表現に提供します。
各種Seq2seqタスクのT5モデルによる実験により,SSRはSeq2seq事前学習を大幅に改善できることが示された。
- 参考スコア(独自算出の注目度): 54.03356526990088
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we generalize text infilling (e.g., masked language models) by
proposing Sequence Span Rewriting (SSR) as a self-supervised
sequence-to-sequence (seq2seq) pre-training objective. SSR provides more
fine-grained learning signals for text representations by supervising the model
to rewrite imperfect spans to ground truth, and it is more consistent than text
infilling with many downstream seq2seq tasks that rewrite a source sentences
into a target sentence. Our experiments with T5 models on various seq2seq tasks
show that SSR can substantially improve seq2seq pre-training. Moreover, we
observe SSR is especially helpful to improve pre-training a small-size seq2seq
model with a powerful imperfect span generator, which indicates a new
perspective of transferring knowledge from a large model to a smaller model for
seq2seq pre-training.
- Abstract(参考訳): 本稿では,ssr(sequence span rewriting)を自己教師付きsequence-to-sequence(seq2seq)事前学習目的として提案することにより,テキストインフィルディング(例えばマスク言語モデル)を一般化する。
SSRは、不完全を真理に書き直すモデルを監督することで、テキスト表現のためのよりきめ細かい学習信号を提供し、ソース文をターゲット文に書き直す多くの下流のseq2seqタスクでテキストを埋め込むよりも一貫性がある。
各種Seq2seqタスクのT5モデルによる実験により,SSRはSeq2seq事前学習を大幅に改善できることが示された。
さらに,ssrは,大規模モデルからsseq2seqプリトレーニングモデルへ知識を移す新たな視点を示す,強力な不完全スパンジェネレータを備えた小型seq2seqモデルの事前学習を改善するのに特に有用である。
関連論文リスト
- Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - Self-Supervised Query Reformulation for Code Search [6.415583252034772]
本稿では,並列クエリコーパスに依存しない自己教師型クエリ再構成手法であるSSQRを提案する。
事前訓練されたモデルにインスパイアされたSSQRは、クエリ再構成をマスキング言語モデリングタスクとして扱う。
論文 参考訳(メタデータ) (2023-07-01T08:17:23Z) - Hierarchical Phrase-based Sequence-to-Sequence Learning [94.10257313923478]
本稿では、学習中の帰納バイアスの源として階層的フレーズを取り入れ、推論中の明示的な制約として、標準的なシーケンス・ツー・シーケンス(seq2seq)モデルの柔軟性を維持するニューラルトランスデューサについて述べる。
本手法では,木が原文と対象句を階層的に整列するブラケット文法に基づく識別的導出法と,整列した句を1対1で翻訳するニューラルネットワークセク2セックモデルという2つのモデルを訓練する。
論文 参考訳(メタデータ) (2022-11-15T05:22:40Z) - The impact of memory on learning sequence-to-sequence tasks [6.603326895384289]
自然言語処理におけるニューラルネットワークの最近の成功は、シーケンシャル・ツー・シーケンス(seq2seq)タスクに新たな注目を集めている。
本稿では,シークエンスにおけるメモリの次数,すなわち非マルコビアン性に対する明示的な制御の利点を生かしたSeq2seqタスクのモデルを提案する。
論文 参考訳(メタデータ) (2022-05-29T14:57:33Z) - Improved Consistency Training for Semi-Supervised Sequence-to-Sequence
ASR via Speech Chain Reconstruction and Self-Transcribing [21.049557187137776]
半教師付きS2S ASRの整合性訓練パラダイムを提案する。
音声連鎖再構成を弱い拡張として利用し,高品質な擬似ラベルを生成する。
改良されたパラダイムは、単一話者設定で12.2%のCER改善、マルチ話者設定で38.6%を実現している。
論文 参考訳(メタデータ) (2022-05-14T04:26:13Z) - Sequence-to-Sequence Learning via Attention Transfer for Incremental
Speech Recognition [25.93405777713522]
ISR タスクにアテンションベース ASR の本来のアーキテクチャを用いることができるかを検討する。
我々は、より薄いモデルや浅いモデルを使う代わりに、教師モデルのオリジナルのアーキテクチャを短いシーケンスで保持する代替の学生ネットワークを設計する。
実験の結果,認識プロセスの開始時刻を約1.7秒で遅延させることで,終了まで待たなければならないものと同等の性能が得られることがわかった。
論文 参考訳(メタデータ) (2020-11-04T05:06:01Z) - Cross-Thought for Sentence Encoder Pre-training [89.32270059777025]
Cross-Thoughtは、事前トレーニングシーケンスエンコーダに対する新しいアプローチである。
我々は、Transformerベースのシーケンスエンコーダを、多数の短いシーケンスに対してトレーニングする。
質問応答とテキストのエンコーダタスクの実験は、事前学習したエンコーダが最先端のエンコーダより優れていることを示す。
論文 参考訳(メタデータ) (2020-10-07T21:02:41Z) - Structured Multimodal Attentions for TextVQA [57.71060302874151]
上述の2つの問題を主に解決するために,終端から終端までの構造化マルチモーダルアテンション(SMA)ニューラルネットワークを提案する。
SMAはまず、画像に現れるオブジェクト・オブジェクト・オブジェクト・テキスト・テキストの関係を符号化するために構造グラフ表現を使用し、その後、それを推論するためにマルチモーダルグラフアテンションネットワークを設計する。
提案モデルでは,テキストVQAデータセットとST-VQAデータセットの2つのタスクを事前学習ベースTAP以外のモデルで比較した。
論文 参考訳(メタデータ) (2020-06-01T07:07:36Z) - Conversational Question Reformulation via Sequence-to-Sequence
Architectures and Pretrained Language Models [56.268862325167575]
本稿では、列列列構造と事前学習言語モデル(PLM)を用いた会話型質問修正(CQR)の実証的研究について述べる。
我々はPLMを利用して、CQRタスクの目的である最大推定におけるトークン・トークン・トークン・トークンの独立性の強い仮定に対処する。
我々は、最近導入されたCANARDデータセットの微調整PLMをドメイン内タスクとして評価し、TREC 2019 CAsT Trackのデータからドメイン外タスクとしてモデルを検証する。
論文 参考訳(メタデータ) (2020-04-04T11:07:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。