論文の概要: Pseudo-Bidirectional Decoding for Local Sequence Transduction
- arxiv url: http://arxiv.org/abs/2001.11694v3
- Date: Sun, 1 Nov 2020 16:01:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 05:55:17.667959
- Title: Pseudo-Bidirectional Decoding for Local Sequence Transduction
- Title(参考訳): 局所配列変換のための擬似双方向デコーディング
- Authors: Wangchunshu Zhou, Tao Ge, Ke Xu
- Abstract要約: LSTタスクに対してPseudo-Bidirectional Decoding (PBD) というシンプルなアプローチを提案する。
提案したPBDアプローチはデコーダの右サイドコンテキスト情報を提供し、LSTタスクの帰納バイアスをモデル化する。
いくつかのベンチマークデータセットによる実験結果から,LSTタスク上での標準Seq2seqモデルの性能は一貫して向上することが示された。
- 参考スコア(独自算出の注目度): 31.05704333618685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Local sequence transduction (LST) tasks are sequence transduction tasks where
there exists massive overlapping between the source and target sequences, such
as Grammatical Error Correction (GEC) and spell or OCR correction. Previous
work generally tackles LST tasks with standard sequence-to-sequence (seq2seq)
models that generate output tokens from left to right and suffer from the issue
of unbalanced outputs. Motivated by the characteristic of LST tasks, in this
paper, we propose a simple but versatile approach named Pseudo-Bidirectional
Decoding (PBD) for LST tasks. PBD copies the corresponding representation of
source tokens to the decoder as pseudo future context to enable the decoder to
attends to its bi-directional context. In addition, the bidirectional decoding
scheme and the characteristic of LST tasks motivate us to share the encoder and
the decoder of seq2seq models. The proposed PBD approach provides right side
context information for the decoder and models the inductive bias of LST tasks,
reducing the number of parameters by half and providing good regularization
effects. Experimental results on several benchmark datasets show that our
approach consistently improves the performance of standard seq2seq models on
LST tasks.
- Abstract(参考訳): 局所配列変換(Local sequence transduction、LST)タスクは、文法的誤り訂正(GEC)やスペルやOCR補正など、ソースとターゲットシーケンスの間に大きな重複があるシーケンス変換タスクである。
従来の作業は、通常、左から右に出力トークンを生成し、バランスの取れない出力の問題に悩まされる標準的なシーケンス・ツー・シーケンス(seq2seq)モデルでLSTタスクに取り組む。
本稿では,LSTタスクの特性に触発されて,Pseudo-Bidirectional Decoding (PBD) というシンプルなアプローチを提案する。
PBDはデコーダに対応するソーストークンの表現を擬似将来のコンテキストとしてコピーし、デコーダがその双方向のコンテキストに出席できるようにする。
さらに、双方向デコード方式とLSTタスクの特性により、seq2seqモデルのエンコーダとデコーダを共有する動機付けとなる。
提案手法は、デコーダの右サイドコンテキスト情報を提供し、LSTタスクの帰納バイアスをモデル化し、パラメータの数を半分に減らし、良好な正規化効果を提供する。
いくつかのベンチマークデータセットによる実験結果から,LSTタスク上での標準Seq2seqモデルの性能は一貫して向上することが示された。
関連論文リスト
- Expediting and Elevating Large Language Model Reasoning via Hidden Chain-of-Thought Decoding [14.175444025026508]
大規模言語モデル(LLM)は、チェーン・オブ・シント(CoT)のプロンプトを必要とするタスクにおいて顕著な機能を示した。
完全なCoTプロセスを生成すると、出力シーケンスが大幅に長くなり、推論時の計算コストと遅延が増大する。
セマンティックアライメントによってCoTプロセスを圧縮し、CoT推論の利点を保ちながらより効率的な復号化を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-13T06:29:20Z) - FADE: A Task-Agnostic Upsampling Operator for Encoder-Decoder Architectures [18.17019371324024]
FADEは、新しくて、プラグアンドプレイで、軽量で、タスクに依存しないアップサンプリングオペレータである。
FADEはタスク非依存であり,多くの密集予測タスクにおいて一貫した性能向上を示す。
リージョンとディテールに敏感なタスクの両方で,ロバストな機能アップサンプリングを初めて実施しました。
論文 参考訳(メタデータ) (2024-07-18T13:32:36Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - A Framework for Bidirectional Decoding: Case Study in Morphological
Inflection [4.602447284133507]
外部からシーケンスを復号するフレームワークを提案する。
各ステップで、モデルは左、右にトークンを生成するか、左と右のシーケンスを結合するかを選択します。
我々のモデルは2022年と2023年の共有タスクに最先端のSOTA(State-of-the-art)を設定し、それぞれ平均精度4.7ポイントと2.7ポイント以上で次の最高のシステムを上回った。
論文 参考訳(メタデータ) (2023-05-21T22:08:31Z) - Reducing Sequence Length by Predicting Edit Operations with Large
Language Models [50.66922361766939]
本稿では,ローカルなシーケンス変換タスクに対して,ソーステキストの編集スパンを予測することを提案する。
編集スパンの監督データに大規模言語モデルに対する命令チューニングを適用する。
実験の結果,提案手法は4つのタスクにおいて,ベースラインに匹敵する性能を発揮することがわかった。
論文 参考訳(メタデータ) (2023-05-19T17:51:05Z) - Decoder Tuning: Efficient Language Understanding as Decoding [84.68266271483022]
本稿では,タスク固有のデコーダネットワークを出力側で最適化するデコーダチューニング(DecT)を提案する。
勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPクエリしか必要としない。
我々は、広範囲にわたる自然言語理解実験を行い、DecTが200ドル以上のスピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-16T11:15:39Z) - Don't Take It Literally: An Edit-Invariant Sequence Loss for Text
Generation [109.46348908829697]
生成したn-gramのすべてのn-gramとの一致損失を計算した新しい編集不変シーケンス損失(EISL)を提案する。
ノイズの多いターゲットシーケンスを持つ機械翻訳,教師なしテキストスタイル転送,非自己回帰型機械翻訳の3つのタスクについて実験を行った。
論文 参考訳(メタデータ) (2021-06-29T03:59:21Z) - Fast Interleaved Bidirectional Sequence Generation [90.58793284654692]
左右方向と左右方向を同時に生成するデコーダを提案する。
一方向デコードのための標準アーキテクチャを簡単に双方向デコーダに変換することができることを示す。
我々のインターリーブ双方向デコーダ (IBDecoder) は標準変換器のモデル単純性と訓練効率を保っている。
論文 参考訳(メタデータ) (2020-10-27T17:38:51Z) - On Sparsifying Encoder Outputs in Sequence-to-Sequence Models [90.58793284654692]
我々はTransformerをテストベッドとして、エンコーダとデコーダの間にあるゲートの層を導入します。
ゲートは、パリシティ誘導L0ペナルティの期待値を用いて正規化される。
このスペーサー化が2つの機械翻訳と2つの要約タスクに与える影響について検討する。
論文 参考訳(メタデータ) (2020-04-24T16:57:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。