論文の概要: BLISS: Robust Sequence-to-Sequence Learning via Self-Supervised Input
Representation
- arxiv url: http://arxiv.org/abs/2204.07837v1
- Date: Sat, 16 Apr 2022 16:19:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-20 06:29:54.943803
- Title: BLISS: Robust Sequence-to-Sequence Learning via Self-Supervised Input
Representation
- Title(参考訳): bliss: 自己教師付き入力表現によるロバストシーケンスからシーケンスへの学習
- Authors: Zheng Zhang, Liang Ding, Dazhao Cheng, Xuebo Liu, Min Zhang, Dacheng
Tao
- Abstract要約: 本稿では,自己教師型入力表現を用いたフレームワークレベルの頑健なシーケンス・ツー・シーケンス学習手法BLISSを提案する。
我々は,機械翻訳,文法的誤り訂正,テキスト要約など,BLISSの様々なタスクにおける有効性を検証するための総合的な実験を行った。
- 参考スコア(独自算出の注目度): 92.75908003533736
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Data augmentations (DA) are the cores to achieving robust
sequence-to-sequence learning on various natural language processing (NLP)
tasks. However, most of the DA approaches force the decoder to make predictions
conditioned on the perturbed input representation, underutilizing supervised
information provided by perturbed input. In this work, we propose a
framework-level robust sequence-to-sequence learning approach, named BLISS, via
self-supervised input representation, which has the great potential to
complement the data-level augmentation approaches. The key idea is to supervise
the sequence-to-sequence framework with both the \textit{supervised}
("input$\rightarrow$output") and \textit{self-supervised} ("perturbed
input$\rightarrow$input") information. We conduct comprehensive experiments to
validate the effectiveness of BLISS on various tasks, including machine
translation, grammatical error correction, and text summarization. The results
show that BLISS outperforms significantly the vanilla Transformer and
consistently works well across tasks than the other five contrastive baselines.
Extensive analyses reveal that BLISS learns robust representations and rich
linguistic knowledge, confirming our claim. Source code will be released upon
publication.
- Abstract(参考訳): データ拡張(da)は、様々な自然言語処理(nlp)タスクでロバストなシーケンス間学習を実現するためのコアである。
しかし、ほとんどのDAアプローチは、デコーダに摂動入力表現に条件付けされた予測を強制し、摂動入力によって提供される教師付き情報を活用する。
本研究では,データレベルの拡張アプローチを補完する大きな可能性を持つ自己教師型入力表現を用いて,フレームワークレベルの堅牢なシーケンス・ツー・シーケンス学習手法BLISSを提案する。
鍵となるアイデアは、sequence-to-sequenceフレームワークを \textit{supervised} ("input$\rightarrow$output") と \textit{self-supervised} ("perturbed input$\rightarrow$input") の両方の情報で監視することである。
我々は,機械翻訳,文法的誤り訂正,テキスト要約など,BLISSの様々なタスクにおける有効性を検証するための総合的な実験を行った。
その結果、BLISSはバニラトランスフォーマーよりも優れており、他の5つのコントラストベースラインよりも一貫してタスク間でうまく機能していることがわかった。
包括的な分析の結果、BLISSは堅牢な表現と豊かな言語知識を学び、我々の主張を裏付けている。
ソースコードは公開時に公開される。
関連論文リスト
- Enhancing Input-Label Mapping in In-Context Learning with Contrastive Decoding [71.01099784480597]
大規模言語モデル(LLM)は、コンテキスト内学習(ICL)を通じて、様々なタスクで優れる
In-Context Contrastive Decoding (ICCD)を導入する。
ICCDは、正と負のインコンテキストの例の出力分布を対比することで、入力ラベルマッピングを強調する。
論文 参考訳(メタデータ) (2025-02-19T14:04:46Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - Logit-Based Ensemble Distribution Distillation for Robust Autoregressive
Sequence Uncertainties [4.8986598953553555]
本研究では,大規模自然言語シーケンスからシーケンスデータへのエンサンブル分散蒸留(EDD)の適用について検討する。
EDDは、高価な(教師)アンサンブルの優れた不確実性を、より安価な(学生)シングルモデルに圧縮することを目的としている。
大規模翻訳タスクにおける現代のトランスフォーマーアーキテクチャでは,ソフトマックスの確率ではなくアンサンブルロジットをモデル化することで,学生が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-05-17T17:21:10Z) - XDBERT: Distilling Visual Information to BERT from Cross-Modal Systems
to Improve Language Understanding [73.24847320536813]
本研究では,事前学習したマルチモーダル変換器から事前学習した言語エンコーダへの視覚情報の蒸留について検討する。
我々のフレームワークは,NLUの言語重み特性に適応するために学習目標を変更する一方で,視覚言語タスクにおけるクロスモーダルエンコーダの成功にインスパイアされている。
論文 参考訳(メタデータ) (2022-04-15T03:44:00Z) - Inducing Transformer's Compositional Generalization Ability via
Auxiliary Sequence Prediction Tasks [86.10875837475783]
体系的な構成性は人間の言語において必須のメカニズムであり、既知の部品の組換えによって新しい表現を作り出すことができる。
既存のニューラルモデルには、記号構造を学習する基本的な能力がないことが示されている。
本稿では,関数の進行と引数のセマンティクスを追跡する2つの補助シーケンス予測タスクを提案する。
論文 参考訳(メタデータ) (2021-09-30T16:41:19Z) - Enjoy the Salience: Towards Better Transformer-based Faithful
Explanations with Word Salience [9.147707153504117]
本研究では,TextRankを用いて抽出した有能な情報に近づき,訓練中に多頭部注意機構を誘導する補助的損失関数を提案する。
5つのデータセットにわたる説明の忠実性の実験は、SaLossでトレーニングされたモデルが一貫してより忠実な説明を提供することを示している。
さらに、下流タスクにおいて、後者がより高い予測性能をもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-31T11:21:30Z) - DeCLUTR: Deep Contrastive Learning for Unsupervised Textual
Representations [4.36561468436181]
教師なしテキスト表現のためのDeCLUTR: Deep Contrastive Learningを提案する。
本手法は,ユニバーサル文エンコーダにおける教師なしと教師なしの事前学習のパフォーマンスギャップを埋めるものである。
私たちのコードと事前訓練されたモデルは公開されており、新しいドメインに簡単に適応したり、目に見えないテキストを埋め込むのに使えます。
論文 参考訳(メタデータ) (2020-06-05T20:00:28Z) - BURT: BERT-inspired Universal Representation from Twin Structure [89.82415322763475]
BURT (BERT inspired Universal Representation from Twin Structure) は任意の粒度の入力シーケンスに対して普遍的で固定サイズの表現を生成することができる。
提案するBURTは,Siameseネットワークを採用し,自然言語推論データセットから文レベル表現を学習し,パラフレーズ化データセットから単語/フレーズレベル表現を学習する。
我々は,STSタスク,SemEval2013 Task 5(a) など,テキスト類似性タスクの粒度によってBURTを評価する。
論文 参考訳(メタデータ) (2020-04-29T04:01:52Z) - Hybrid Attention-Based Transformer Block Model for Distant Supervision
Relation Extraction [20.644215991166902]
DSREタスクを実行するために,マルチインスタンス学習を用いたハイブリッドアテンションベースのトランスフォーマーブロックを用いた新しいフレームワークを提案する。
提案手法は評価データセットの最先端アルゴリズムより優れている。
論文 参考訳(メタデータ) (2020-03-10T13:05:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。