論文の概要: Iterative Decoding for Compositional Generalization in Transformers
- arxiv url: http://arxiv.org/abs/2110.04169v1
- Date: Fri, 8 Oct 2021 14:52:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-11 13:37:20.169953
- Title: Iterative Decoding for Compositional Generalization in Transformers
- Title(参考訳): 変圧器の構成一般化のための反復復号
- Authors: Luana Ruiz, Joshua Ainslie, Santiago Onta\~n\'on
- Abstract要約: シーケンシャル・ツー・シークエンス・ラーニングでは、トランスフォーマーは極端に長い例に対して正しい出力を予測できないことが多い。
本稿では,Seq2seq学習に代わる反復復号法を提案する。
反復復号により訓練されたトランスフォーマーはPCFGデータセット上でセq2seqよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 5.269770493488338
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning models do well at generalizing to in-distribution data but
struggle to generalize compositionally, i.e., to combine a set of learned
primitives to solve more complex tasks. In particular, in sequence-to-sequence
(seq2seq) learning, transformers are often unable to predict correct outputs
for even marginally longer examples than those seen during training. This paper
introduces iterative decoding, an alternative to seq2seq learning that (i)
improves transformer compositional generalization and (ii) evidences that, in
general, seq2seq transformers do not learn iterations that are not unrolled.
Inspired by the idea of compositionality -- that complex tasks can be solved by
composing basic primitives -- training examples are broken down into a sequence
of intermediate steps that the transformer then learns iteratively. At
inference time, the intermediate outputs are fed back to the transformer as
intermediate inputs until an end-of-iteration token is predicted. Through
numerical experiments, we show that transfomers trained via iterative decoding
outperform their seq2seq counterparts on the PCFG dataset, and solve the
problem of calculating Cartesian products between vectors longer than those
seen during training with 100% accuracy, a task at which seq2seq models have
been shown to fail. We also illustrate a limitation of iterative decoding,
specifically, that it can make sorting harder to learn on the CFQ dataset.
- Abstract(参考訳): ディープラーニングモデルは、分散データへの一般化に優れるが、より複雑なタスクを解くために、学習されたプリミティブのセットを組み合わせて構成を一般化するのに苦労する。
特にsequence-to-sequence(seq2seq)学習では、トランスフォーマーはトレーニング中に見られるものよりもわずかに長い例で正しい出力を予測できないことが多い。
本稿では,Seq2seq学習に代わる反復復号法を提案する。
(i)変圧器構成の一般化と改良
(ii) 一般に、Seq2seq変換子はアンロールされていない反復を学習しない。
複雑なタスクは基本的なプリミティブを構成することで解決できるという構成性の概念に触発されたトレーニングサンプルは、トランスフォーマーが反復的に学習する一連の中間ステップに分解される。
推論時、中間出力は中間入力として変換器にフィードバックされ、終端トークンが予測される。
数値実験により,pcfgデータセット上のseq2seq値よりも反復復号により訓練されたトランスフォマーが優れていることを示し,100%精度でトレーニング中に見たベクトルよりも長いベクトル間のデカルト積を計算するという課題を解決した。
また、反復復号の限界、具体的には、cfqデータセットでソートを学ぶのが難しくなることを示す。
関連論文リスト
- Algorithmic Capabilities of Random Transformers [49.73113518329544]
埋め込み層のみを最適化したランダムトランスフォーマーによって、どのような関数が学習できるかを検討する。
これらのランダムなトランスフォーマーは、幅広い意味のあるアルゴリズムタスクを実行することができる。
以上の結果から,これらのモデルが訓練される前にも,アルゴリズム能力がトランスフォーマに存在することが示唆された。
論文 参考訳(メタデータ) (2024-10-06T06:04:23Z) - The Expressive Power of Transformers with Chain of Thought [29.839710738657203]
実際には、トランスフォーマーは「思考の連鎖」や「スクラッチパッド」を使用することで改善できる。
答えはYESであるが、増加量は中間生成量に大きく依存する。
また, 線形ステップでは, コンテクストに敏感な言語に変換器デコーダを配置することが示唆された。
論文 参考訳(メタデータ) (2023-10-11T22:35:18Z) - Compositional Generalization without Trees using Multiset Tagging and
Latent Permutations [121.37328648951993]
まず、各入力トークンに複数の出力トークンをタグ付けします。
次に、新しいパラメータ化法と置換予測法を用いて、トークンを出力シーケンスに配置する。
我々のモデルは、事前訓練されたセq2seqモデルと、現実的なセマンティック解析タスクに関する先行研究より優れている。
論文 参考訳(メタデータ) (2023-05-26T14:09:35Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z) - Systematic Generalization and Emergent Structures in Transformers
Trained on Structured Tasks [6.525090891505941]
我々は、因果変換器が、コピー、ソート、階層的な構成を含む一連のアルゴリズムタスクを実行する方法を示す。
両層変換器は多層問題に対する一般化可能な解法を学習し,系統的タスク分解の兆候を現示する。
これらの結果は、トランスフォーマーモデルが複雑な決定を再利用可能なマルチレベルポリシーに分解する方法について、重要な洞察を与えてくれる。
論文 参考訳(メタデータ) (2022-10-02T00:46:36Z) - Recursive Decoding: A Situated Cognition Approach to Compositional
Generation in Grounded Language Understanding [0.0]
本稿では,Seq2seqモデルをトレーニングおよび使用するための新しい手順であるRecursive Decodingを提案する。
1回のパスで出力シーケンス全体を生成するのではなく、モデルは一度に1つのトークンを予測するように訓練される。
RDは、gSCANの2つの以前に無視された一般化タスクに対して劇的な改善をもたらす。
論文 参考訳(メタデータ) (2022-01-27T19:13:42Z) - Grounded Graph Decoding Improves Compositional Generalization in
Question Answering [68.72605660152101]
質問応答モデルは、長いシーケンスやより複雑なテスト構造のようなトレーニングパターンの新しい構成に一般化するのに苦労する。
構造化された予測をアテンション機構でグラウンド化することで,言語表現の合成一般化を改善する手法であるグラウンドドグラフデコーディングを提案する。
本モデルは,質問応答における合成一般化の挑戦的ベンチマークである構成自由ベース質問(CFQ)データセットにおいて,最先端のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2021-11-05T17:50:14Z) - Discovering Non-monotonic Autoregressive Orderings with Variational
Inference [67.27561153666211]
我々は、訓練データから高品質な生成順序を純粋に検出する、教師なし並列化可能な学習装置を開発した。
エンコーダを非因果的注意を持つトランスフォーマーとして実装し、1つのフォワードパスで置換を出力する。
言語モデリングタスクにおける経験的結果から,我々の手法は文脈認識であり,一定の順序と競合する,あるいはより優れた順序を見つけることができる。
論文 参考訳(メタデータ) (2021-10-27T16:08:09Z) - Inducing Transformer's Compositional Generalization Ability via
Auxiliary Sequence Prediction Tasks [86.10875837475783]
体系的な構成性は人間の言語において必須のメカニズムであり、既知の部品の組換えによって新しい表現を作り出すことができる。
既存のニューラルモデルには、記号構造を学習する基本的な能力がないことが示されている。
本稿では,関数の進行と引数のセマンティクスを追跡する2つの補助シーケンス予測タスクを提案する。
論文 参考訳(メタデータ) (2021-09-30T16:41:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。