論文の概要: SpanDrop: Simple and Effective Counterfactual Learning for Long
Sequences
- arxiv url: http://arxiv.org/abs/2208.02169v1
- Date: Wed, 3 Aug 2022 15:58:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-04 13:10:52.169000
- Title: SpanDrop: Simple and Effective Counterfactual Learning for Long
Sequences
- Title(参考訳): SpanDrop:ロングシーケンスのためのシンプルで効果的な対実学習
- Authors: Peng Qi, Guangtao Wang, Jing Huang
- Abstract要約: SpanDropは、モデルが長いシーケンスで真の監視信号を特定するのに役立つ、シンプルで効果的なデータ拡張技術である。
入力シーケンスを直接操作することで、SpanDropはシーケンスの一部をランダムにアブラレートし、モデルに同じタスクを実行するように要求する。
SpanDropは、データが乏しく豊富である場合にも、モデルの性能向上に役立つことを示す。
- 参考スコア(独自算出の注目度): 11.531737038253343
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Distilling supervision signal from a long sequence to make predictions is a
challenging task in machine learning, especially when not all elements in the
input sequence contribute equally to the desired output. In this paper, we
propose SpanDrop, a simple and effective data augmentation technique that helps
models identify the true supervision signal in a long sequence with very few
examples. By directly manipulating the input sequence, SpanDrop randomly
ablates parts of the sequence at a time and ask the model to perform the same
task to emulate counterfactual learning and achieve input attribution. Based on
theoretical analysis of its properties, we also propose a variant of SpanDrop
based on the beta-Bernoulli distribution, which yields diverse augmented
sequences while providing a learning objective that is more consistent with the
original dataset. We demonstrate the effectiveness of SpanDrop on a set of
carefully designed toy tasks, as well as various natural language processing
tasks that require reasoning over long sequences to arrive at the correct
answer, and show that it helps models improve performance both when data is
scarce and abundant.
- Abstract(参考訳): 長いシーケンスから監視信号を蒸留して予測することは、特に入力シーケンスのすべての要素が所望の出力に等しく寄与しない場合、機械学習において難しいタスクである。
本稿では、モデルが長い列の中で真の監督信号を特定するのを非常に少ない例で支援する、シンプルで効果的なデータ拡張手法であるspandropを提案する。
入力シーケンスを直接操作することで、SpanDropはシーケンスの一部をランダムにアブラレートし、モデルに同じタスクを実行させ、反事実学習をエミュレートし、入力属性を達成する。
また,その特性の理論的解析に基づいて,β-Bernoulli分布に基づくSpanDropの変種を提案する。
本研究では,厳密に設計された玩具タスク群と自然言語処理タスク群に対するspandropの有効性を実証し,データ不足時と不足時の両方でモデルの性能向上に役立つことを示す。
関連論文リスト
- Self-Distillation Improves DNA Sequence Inference [15.497250990633047]
SSP(Self-supervised pretraining)は、様々な下流タスクにおける予測精度を高める方法として認識されている。
この制限は主に、ゲノム学における既存のSSPアプローチが個々の配列のマスキング言語モデリングに焦点を当てているという事実に起因している。
本稿では,学生と教師のサブネットワーク間の協調学習を取り入れた,革新的なディープニューラルネットワークモデルを提案する。
論文 参考訳(メタデータ) (2024-05-14T12:24:52Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - SequenceMatch: Imitation Learning for Autoregressive Sequence Modelling with Backtracking [60.109453252858806]
MLE(Maxum-likelihood)の目的は、高品質なシーケンスを自動回帰的に生成する下流のユースケースと一致しない。
我々は、模倣学習(IL)問題としてシーケンス生成を定式化する。
これにより、自己回帰モデルによって生成されるシーケンスの分布とデータセットからのシーケンスとの差異を最小化できる。
得られた手法であるSequenceMatchは、敵の訓練やアーキテクチャの変更なしに実装できる。
論文 参考訳(メタデータ) (2023-06-08T17:59:58Z) - Discrete Key-Value Bottleneck [95.61236311369821]
ディープニューラルネットワークは、データストリームがi.d.d.であり、ラベル付きデータが豊富である分類タスクでうまく機能する。
この課題に対処した強力なアプローチの1つは、手軽に利用可能なデータ量に対する大規模なエンコーダの事前トレーニングと、タスク固有のチューニングである。
しかし、新しいタスクを考えると、多くの重みを微調整する必要があるため、エンコーダの重みを更新することは困難であり、その結果、以前のタスクに関する情報を忘れてしまう。
この問題に対処するモデルアーキテクチャを提案し,個別かつ学習可能なキー値符号のペアを含む離散的ボトルネックの上に構築する。
論文 参考訳(メタデータ) (2022-07-22T17:52:30Z) - BLISS: Robust Sequence-to-Sequence Learning via Self-Supervised Input
Representation [92.75908003533736]
本稿では,自己教師型入力表現を用いたフレームワークレベルの頑健なシーケンス・ツー・シーケンス学習手法BLISSを提案する。
我々は,機械翻訳,文法的誤り訂正,テキスト要約など,BLISSの様々なタスクにおける有効性を検証するための総合的な実験を行った。
論文 参考訳(メタデータ) (2022-04-16T16:19:47Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z) - Sequence Length is a Domain: Length-based Overfitting in Transformer
Models [0.0]
機械翻訳において、ニューラルベースシステムは、前回のフレーズベースの翻訳アプローチと比較して非常に長いシーケンスでより良く動作する。
実験結果から, 実験結果から得られた実験結果から, 観測結果の減少は, 入力シーケンスの長さではなく, 学習中のモデルで見られる長さに対応する仮説長が原因であることが示唆された。
論文 参考訳(メタデータ) (2021-09-15T13:25:19Z) - Temporally Correlated Task Scheduling for Sequence Learning [143.70523777803723]
多くのアプリケーションにおいて、シーケンス学習タスクは通常、複数の時間的に相関した補助タスクと関連付けられている。
シーケンス学習に学習可能なスケジューラを導入し、トレーニングのための補助的なタスクを適応的に選択できる。
本手法は,同時翻訳とストックトレンド予測の性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-07-10T10:28:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。