Fugu-MT 論文翻訳(概要): Insertion-Deletion Transformer

論文の概要: Insertion-Deletion Transformer

arxiv url: http://arxiv.org/abs/2001.05540v1
Date: Wed, 15 Jan 2020 20:26:48 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-11 05:29:17.500972
Title: Insertion-Deletion Transformer
Title（参考訳）: 挿入欠失変圧器
Authors: Laura Ruis, Mitchell Stern, Julia Proskurnia, William Chan
Abstract要約: 本稿では,新しいトランスに基づくニューラルネットワークとシーケンス生成のためのトレーニング手法であるInsertion-Deletion Transformerを提案する。挿入専用モデルによるBLEUスコアの大幅な向上を図り、合成翻訳作業における挿入・削除変換器の有効性を実証する。
参考スコア（独自算出の注目度）: 17.92615675923591
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose the Insertion-Deletion Transformer, a novel transformer-based neural architecture and training method for sequence generation. The model consists of two phases that are executed iteratively, 1) an insertion phase and 2) a deletion phase. The insertion phase parameterizes a distribution of insertions on the current output hypothesis, while the deletion phase parameterizes a distribution of deletions over the current output hypothesis. The training method is a principled and simple algorithm, where the deletion model obtains its signal directly on-policy from the insertion model output. We demonstrate the effectiveness of our Insertion-Deletion Transformer on synthetic translation tasks, obtaining significant BLEU score improvement over an insertion-only model.
Abstract（参考訳）: 本稿では,新しいトランスを用いたニューラルアーキテクチャであるInsertion-Deletion Transformerを提案する。モデルは2つのフェーズで構成され、反復的に実行される。 1)挿入相及び挿入相 2) 削除フェーズ。挿入フェーズは、電流出力仮説上の挿入の分布をパラメータ化し、削除フェーズは、電流出力仮説上の削除の分布をパラメータ化する。訓練法は、挿入モデル出力からその信号を直接オンポリシーに取得する原理的かつ単純なアルゴリズムである。合成翻訳タスクにおける挿入削除トランスの有効性を実証し,挿入のみモデルよりもブレウスコアが有意に向上した。

関連論文リスト

Transformers Don't In-Context Learn Least Squares Regression [5.648229654902264]
In-context Learning (ICL) は、大規模な事前学習型トランスフォーマーの強力な能力として登場した。我々は、トランスフォーマーが推論時に学習をどのように実装するかを研究する。 ICLの行動形成におけるプレトレーニングコーパスの役割を強調した。
論文参考訳（メタデータ） (2025-07-13T01:09:26Z)
Transformers Handle Endogeneity in In-Context Linear Regression [34.458004744956334]
インストゥルメンタル変数(IV)を用いて内在性を効果的に扱うメカニズムをトランスフォーマーが本質的に持っていることを示す。提案手法では,事前学習損失の最小化が最小限の余剰損失を達成できることを示す理論的保証を提供する。
論文参考訳（メタデータ） (2024-10-02T06:21:04Z)
Efficient Diffusion Transformer with Step-wise Dynamic Attention Mediators [83.48423407316713]
本稿では,クエリとキーを別々に扱うために,追加の仲介者トークンを組み込んだ新しい拡散トランスフォーマーフレームワークを提案する。本モデルでは, 正確な非曖昧な段階を呈し, 詳細に富んだ段階へと徐々に遷移する。本手法は,最近のSiTと統合した場合に,最先端のFIDスコア2.01を達成する。
論文参考訳（メタデータ） (2024-08-11T07:01:39Z)
PIDformer: Transformer Meets Control Theory [28.10913642120948]
我々は、そのソリューションのスムーズさを本質的に促進する自律的状態空間モデルとして自己意識を公表する。モデルに参照点を持つPID(Proportional-Integral-Derivative)クローズドループフィードバック制御システムを導入し,ロバスト性や表現能力の向上を図る。この制御フレームワークにより、新しい変換器のクラス、PID制御変換器(PIDformer)を導出する。
論文参考訳（メタデータ） (2024-02-25T05:04:51Z)
Minusformer: Improving Time Series Forecasting by Progressively Learning Residuals [14.741951369068877]
ユビキタス時系列(TS)予測モデルでは,過度なオーバーフィッティングが生じる傾向にある。本稿では,深層的なブースティング・アンサンブル学習手法である二重ストリーム・サブトラクション機構を提案する。提案手法は既存の最先端手法よりも優れており,各データセットの平均性能は11.9%向上した。
論文参考訳（メタデータ） (2024-02-04T03:54:31Z)
Investigating Recurrent Transformers with Dynamic Halt [64.862738244735]
本研究では, 変圧器の繰り返し機構を付加する2つの主要な手法の帰納バイアスについて検討する。提案手法を拡張・結合する新しい手法を提案し,検討する。
論文参考訳（メタデータ） (2024-02-01T19:47:31Z)
SIP: Injecting a Structural Inductive Bias into a Seq2Seq Model by Simulation [75.14793516745374]
本稿では, 構造的帰納バイアスをセック2セックモデルに効率よく注入し, 合成データの構造的変換をシミュレートする方法について述べる。実験の結果,本手法は所望の帰納バイアスを付与し,FSTのようなタスクに対してより優れた数発学習を実現することがわかった。
論文参考訳（メタデータ） (2023-10-01T21:19:12Z)
Uncovering mesa-optimization algorithms in Transformers [61.06055590704677]
いくつかの自己回帰モデルは、入力シーケンスが処理されたときに学習でき、パラメータの変更を受けずに、それを行うように明示的に訓練されていない。我々は,新しい入力が明らかになったときにモデルを調整するための補助学習アルゴリズムが,標準の次トーケン予測誤差最小化によって生まれることを示す。本研究は、自己回帰損失最小化の産物としてコンテキスト内学習を説明し、新しい最適化ベースのトランスフォーマー層の設計を通知する。
論文参考訳（メタデータ） (2023-09-11T22:42:50Z)
Latent Positional Information is in the Self-Attention Variance of Transformer Language Models Without Positional Embeddings [68.61185138897312]
凍結変圧器言語モデルでは,自己意図の分散を縮小することにより,強い位置情報を符号化する。本研究は, 位置埋め込みを廃止する決定を正当化し, トランスフォーマー言語モデルのより効率的な事前学習を容易にすることに役立つ。
論文参考訳（メタデータ） (2023-05-23T01:03:40Z)
Diffusion Glancing Transformer for Parallel Sequence to Sequence Learning [52.72369034247396]
モーダリティ拡散プロセスと残差グランシングサンプリングを併用した拡散グランシング変換器を提案する。 DIFFGLATは、自己回帰モデルと非自己回帰モデルの両方と比較して、高速な復号速度を維持しながら、より優れた生成精度を実現する。
論文参考訳（メタデータ） (2022-12-20T13:36:25Z)
Towards Incremental Transformers: An Empirical Analysis of Transformer Models for Incremental NLU [19.103130032967663]
インクリメンタル処理により、対話システムは部分的な入力に基づいて応答できる。最近の作業では、再起動と増分によってトランスフォーマーを漸進的に適用しようと試みている。このアプローチは計算コストが高く、長いシーケンスに対して効率よくスケールしない。
論文参考訳（メタデータ） (2021-09-15T15:20:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。