Fugu-MT 論文翻訳(概要): Iterative Decoding for Compositional Generalization in Transformers

論文の概要: Iterative Decoding for Compositional Generalization in Transformers

arxiv url: http://arxiv.org/abs/2110.04169v1
Date: Fri, 8 Oct 2021 14:52:25 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-11 13:37:20.169953
Title: Iterative Decoding for Compositional Generalization in Transformers
Title（参考訳）: 変圧器の構成一般化のための反復復号
Authors: Luana Ruiz, Joshua Ainslie, Santiago Onta\~n\'on
Abstract要約: シーケンシャル・ツー・シークエンス・ラーニングでは、トランスフォーマーは極端に長い例に対して正しい出力を予測できないことが多い。本稿では,Seq2seq学習に代わる反復復号法を提案する。反復復号により訓練されたトランスフォーマーはPCFGデータセット上でセq2seqよりも優れていることを示す。
参考スコア（独自算出の注目度）: 5.269770493488338
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep learning models do well at generalizing to in-distribution data but struggle to generalize compositionally, i.e., to combine a set of learned primitives to solve more complex tasks. In particular, in sequence-to-sequence (seq2seq) learning, transformers are often unable to predict correct outputs for even marginally longer examples than those seen during training. This paper introduces iterative decoding, an alternative to seq2seq learning that (i) improves transformer compositional generalization and (ii) evidences that, in general, seq2seq transformers do not learn iterations that are not unrolled. Inspired by the idea of compositionality -- that complex tasks can be solved by composing basic primitives -- training examples are broken down into a sequence of intermediate steps that the transformer then learns iteratively. At inference time, the intermediate outputs are fed back to the transformer as intermediate inputs until an end-of-iteration token is predicted. Through numerical experiments, we show that transfomers trained via iterative decoding outperform their seq2seq counterparts on the PCFG dataset, and solve the problem of calculating Cartesian products between vectors longer than those seen during training with 100% accuracy, a task at which seq2seq models have been shown to fail. We also illustrate a limitation of iterative decoding, specifically, that it can make sorting harder to learn on the CFQ dataset.
Abstract（参考訳）: ディープラーニングモデルは、分散データへの一般化に優れるが、より複雑なタスクを解くために、学習されたプリミティブのセットを組み合わせて構成を一般化するのに苦労する。特にsequence-to-sequence(seq2seq)学習では、トランスフォーマーはトレーニング中に見られるものよりもわずかに長い例で正しい出力を予測できないことが多い。本稿では,Seq2seq学習に代わる反復復号法を提案する。 (i)変圧器構成の一般化と改良 (ii) 一般に、Seq2seq変換子はアンロールされていない反復を学習しない。複雑なタスクは基本的なプリミティブを構成することで解決できるという構成性の概念に触発されたトレーニングサンプルは、トランスフォーマーが反復的に学習する一連の中間ステップに分解される。推論時、中間出力は中間入力として変換器にフィードバックされ、終端トークンが予測される。数値実験により,pcfgデータセット上のseq2seq値よりも反復復号により訓練されたトランスフォマーが優れていることを示し,100%精度でトレーニング中に見たベクトルよりも長いベクトル間のデカルト積を計算するという課題を解決した。また、反復復号の限界、具体的には、cfqデータセットでソートを学ぶのが難しくなることを示す。

関連論文リスト

Transformers Don't In-Context Learn Least Squares Regression [5.648229654902264]
In-context Learning (ICL) は、大規模な事前学習型トランスフォーマーの強力な能力として登場した。我々は、トランスフォーマーが推論時に学習をどのように実装するかを研究する。 ICLの行動形成におけるプレトレーニングコーパスの役割を強調した。
論文参考訳（メタデータ） (2025-07-13T01:09:26Z)
Learning Compositional Functions with Transformers from Easy-to-Hard Data [63.96562216704653]
我々は、$k$入力置換と$k$隠れ置換のインターリーブ構成を計算しなければならない$k$フォールド合成タスクの学習可能性について検討する。この関数クラスは、$O(log k)$-depth変換器への勾配降下により、実行時とサンプルを$k$で効率的に学習できることを示す。
論文参考訳（メタデータ） (2025-05-29T17:22:00Z)
Algorithmic Capabilities of Random Transformers [49.73113518329544]
埋め込み層のみを最適化したランダムトランスフォーマーによって、どのような関数が学習できるかを検討する。これらのランダムなトランスフォーマーは、幅広い意味のあるアルゴリズムタスクを実行することができる。以上の結果から,これらのモデルが訓練される前にも,アルゴリズム能力がトランスフォーマに存在することが示唆された。
論文参考訳（メタデータ） (2024-10-06T06:04:23Z)
The Expressive Power of Transformers with Chain of Thought [29.839710738657203]
実際には、トランスフォーマーは「思考の連鎖」や「スクラッチパッド」を使用することで改善できる。答えはYESであるが、増加量は中間生成量に大きく依存する。また, 線形ステップでは, コンテクストに敏感な言語に変換器デコーダを配置することが示唆された。
論文参考訳（メタデータ） (2023-10-11T22:35:18Z)
Compositional Generalization without Trees using Multiset Tagging and Latent Permutations [121.37328648951993]
まず、各入力トークンに複数の出力トークンをタグ付けします。次に、新しいパラメータ化法と置換予測法を用いて、トークンを出力シーケンスに配置する。我々のモデルは、事前訓練されたセq2seqモデルと、現実的なセマンティック解析タスクに関する先行研究より優れている。
論文参考訳（メタデータ） (2023-05-26T14:09:35Z)
Mutual Exclusivity Training and Primitive Augmentation to Induce Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文参考訳（メタデータ） (2022-11-28T17:36:41Z)
Systematic Generalization and Emergent Structures in Transformers Trained on Structured Tasks [6.525090891505941]
我々は、因果変換器が、コピー、ソート、階層的な構成を含む一連のアルゴリズムタスクを実行する方法を示す。両層変換器は多層問題に対する一般化可能な解法を学習し,系統的タスク分解の兆候を現示する。これらの結果は、トランスフォーマーモデルが複雑な決定を再利用可能なマルチレベルポリシーに分解する方法について、重要な洞察を与えてくれる。
論文参考訳（メタデータ） (2022-10-02T00:46:36Z)
Recursive Decoding: A Situated Cognition Approach to Compositional Generation in Grounded Language Understanding [0.0]
本稿では,Seq2seqモデルをトレーニングおよび使用するための新しい手順であるRecursive Decodingを提案する。 1回のパスで出力シーケンス全体を生成するのではなく、モデルは一度に1つのトークンを予測するように訓練される。 RDは、gSCANの2つの以前に無視された一般化タスクに対して劇的な改善をもたらす。
論文参考訳（メタデータ） (2022-01-27T19:13:42Z)
Grounded Graph Decoding Improves Compositional Generalization in Question Answering [68.72605660152101]
質問応答モデルは、長いシーケンスやより複雑なテスト構造のようなトレーニングパターンの新しい構成に一般化するのに苦労する。構造化された予測をアテンション機構でグラウンド化することで,言語表現の合成一般化を改善する手法であるグラウンドドグラフデコーディングを提案する。本モデルは,質問応答における合成一般化の挑戦的ベンチマークである構成自由ベース質問(CFQ)データセットにおいて,最先端のベースラインを著しく上回っている。
論文参考訳（メタデータ） (2021-11-05T17:50:14Z)
Discovering Non-monotonic Autoregressive Orderings with Variational Inference [67.27561153666211]
我々は、訓練データから高品質な生成順序を純粋に検出する、教師なし並列化可能な学習装置を開発した。エンコーダを非因果的注意を持つトランスフォーマーとして実装し、1つのフォワードパスで置換を出力する。言語モデリングタスクにおける経験的結果から,我々の手法は文脈認識であり,一定の順序と競合する,あるいはより優れた順序を見つけることができる。
論文参考訳（メタデータ） (2021-10-27T16:08:09Z)
Inducing Transformer's Compositional Generalization Ability via Auxiliary Sequence Prediction Tasks [86.10875837475783]
体系的な構成性は人間の言語において必須のメカニズムであり、既知の部品の組換えによって新しい表現を作り出すことができる。既存のニューラルモデルには、記号構造を学習する基本的な能力がないことが示されている。本稿では,関数の進行と引数のセマンティクスを追跡する2つの補助シーケンス予測タスクを提案する。
論文参考訳（メタデータ） (2021-09-30T16:41:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。