論文の概要: RewriteNets: End-to-End Trainable String-Rewriting for Generative Sequence Modeling
- arxiv url: http://arxiv.org/abs/2601.07868v1
- Date: Sat, 10 Jan 2026 19:59:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:18.880304
- Title: RewriteNets: End-to-End Trainable String-Rewriting for Generative Sequence Modeling
- Title(参考訳): RewriteNets: 生成シーケンスモデリングのためのエンドツーエンドのトレーニング可能な文字列書き換え
- Authors: Harshil Vejendla,
- Abstract要約: 明示的な並列文字列書き換えに基づくニューラルアーキテクチャであるRewriteNetsを提案する。
アルゴリズム, 合成, 文字列操作タスク上でのRewriteNetsの評価を行い, 強力なLSTMとTransformerベースラインとの比較を行った。
その結果、RewriteNetsは系統的な一般化を必要とするタスクに優れ、Transformersよりも効率的であることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dominant sequence models like the Transformer represent structure implicitly through dense attention weights, incurring quadratic complexity. We propose RewriteNets, a novel neural architecture built on an alternative paradigm: explicit, parallel string rewriting. Each layer in a RewriteNet contains a set of learnable rules. For each position in an input sequence, the layer performs four operations: (1) fuzzy matching of rule patterns, (2) conflict resolution via a differentiable assignment operator to select non-overlapping rewrites, (3) application of the chosen rules to replace input segments with output segments of potentially different lengths, and (4) propagation of untouched tokens. While the discrete assignment of rules is non-differentiable, we employ a straight-through Gumbel-Sinkhorn estimator, enabling stable end-to-end training. We evaluate RewriteNets on algorithmic, compositional, and string manipulation tasks, comparing them against strong LSTM and Transformer baselines. Results show that RewriteNets excel at tasks requiring systematic generalization (achieving 98.7% accuracy on the SCAN benchmark's length split) and are computationally more efficient than Transformers. We also provide an analysis of learned rules and an extensive ablation study, demonstrating that this architecture presents a promising direction for sequence modeling with explicit structural inductive biases.
- Abstract(参考訳): Transformerのような支配的なシーケンスモデルは、重み付けによって暗黙的に構造を表現し、二次的な複雑さを引き起こす。
RewriteNetsは、明示的で並列な文字列書き換えという代替パラダイムに基づいて構築された、新しいニューラルアーキテクチャである。
RewriteNetの各レイヤには、学習可能なルールのセットが含まれている。
入力シーケンスの各位置について、(1)規則パターンのファジィマッチング、(2)重複しない書き直しを選択するための微分可能な代入演算子によるコンフリクト解決、(3)入力セグメントを潜在的に異なる長さの出力セグメントに置き換えるための選択されたルールの適用、(4)未タッチトークンの伝搬の4つの操作を実行する。
規則の離散的な割り当ては微分不可能であるが、Gumbel-Sinkhorn推定器を用いて、安定したエンドツーエンドのトレーニングを可能にする。
アルゴリズム, 合成, 文字列操作タスク上でのRewriteNetsの評価を行い, 強力なLSTMとTransformerベースラインとの比較を行った。
結果は、RewriteNetsが体系的な一般化を必要とするタスク(SCANベンチマークの長さ分割で98.7%の精度を達成する)に優れており、Transformersよりも計算効率が高いことを示している。
また、学習ルールの分析と広範囲にわたるアブレーション研究を行い、このアーキテクチャが明示的な構造的帰納バイアスを持つシーケンスモデリングに有望な方向を示すことを示した。
関連論文リスト
- Do Transformers use variable binding? [14.222494511474103]
ディープニューラルネットワーク(DNN)の説明可能性を高めるには、シンボリック計算を実装するかどうかを評価する必要がある。
1つの中心的なシンボル容量は変数バインディングであり、入力値をシステム内部メモリに保持されている抽象変数にリンクする。
本稿では,最先端トランスフォーマーネットワークBERTとRoBERTaの可変結合容量を初めて体系的に評価する。
論文 参考訳(メタデータ) (2022-02-19T09:56:38Z) - Discovering Non-monotonic Autoregressive Orderings with Variational
Inference [67.27561153666211]
我々は、訓練データから高品質な生成順序を純粋に検出する、教師なし並列化可能な学習装置を開発した。
エンコーダを非因果的注意を持つトランスフォーマーとして実装し、1つのフォワードパスで置換を出力する。
言語モデリングタスクにおける経験的結果から,我々の手法は文脈認識であり,一定の順序と競合する,あるいはより優れた順序を見つけることができる。
論文 参考訳(メタデータ) (2021-10-27T16:08:09Z) - Inducing Transformer's Compositional Generalization Ability via
Auxiliary Sequence Prediction Tasks [86.10875837475783]
体系的な構成性は人間の言語において必須のメカニズムであり、既知の部品の組換えによって新しい表現を作り出すことができる。
既存のニューラルモデルには、記号構造を学習する基本的な能力がないことが示されている。
本稿では,関数の進行と引数のセマンティクスを追跡する2つの補助シーケンス予測タスクを提案する。
論文 参考訳(メタデータ) (2021-09-30T16:41:19Z) - Self-Supervised Learning to Prove Equivalence Between Straight-Line
Programs via Rewrite Rules [9.1570563482476]
2つのプログラムは、1つのプログラムをもう1つのプログラムに書き換える、書き換え規則の一連の適用が存在する場合と同値である。
本稿では,プログラムペア間の等価性の証明を生成するために,トランスフォーマーモデルに基づくニューラルネットワークアーキテクチャを提案する。
我々のシステムであるS4Eqは、1万対の等価プログラムをキュレートしたデータセット上で97%の証明成功を達成した。
論文 参考訳(メタデータ) (2021-09-22T01:37:08Z) - Don't Take It Literally: An Edit-Invariant Sequence Loss for Text
Generation [109.46348908829697]
生成したn-gramのすべてのn-gramとの一致損失を計算した新しい編集不変シーケンス損失(EISL)を提案する。
ノイズの多いターゲットシーケンスを持つ機械翻訳,教師なしテキストスタイル転送,非自己回帰型機械翻訳の3つのタスクについて実験を行った。
論文 参考訳(メタデータ) (2021-06-29T03:59:21Z) - Structured Reordering for Modeling Latent Alignments in Sequence
Transduction [86.94309120789396]
本稿では,分離可能な置換の辺りを正確に推定する効率的な動的プログラミングアルゴリズムを提案する。
結果のSeq2seqモデルは、合成問題やNLPタスクの標準モデルよりも体系的な一般化が優れている。
論文 参考訳(メタデータ) (2021-06-06T21:53:54Z) - Logic Constrained Pointer Networks for Interpretable Textual Similarity [11.142649867439406]
本稿では, セシネルゲーティング機能を備えた新しいポインターネットワークモデルを導入し, 構成チャンクを整列させる。
両文の相違を等しく補償し、アライメントが双方向であることを保証するために、損失関数によるこのベースモデルを改善する。
このモデルは、チャンクアライメントタスクのためのベンチマークSemEvalデータセットにおいて、97.73と96.32のF1スコアを達成する。
論文 参考訳(メタデータ) (2020-07-15T13:01:44Z) - Multi-level Head-wise Match and Aggregation in Transformer for Textual
Sequence Matching [87.97265483696613]
そこで本研究では,複数のレベルにおける頭部のマッチング表現を学習することで,Transformerとのシーケンスペアマッチングを新たに提案する。
実験の結果,提案手法は複数のタスクにおいて新しい最先端性能を実現することができることがわかった。
論文 参考訳(メタデータ) (2020-01-20T20:02:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。