Fugu-MT 論文翻訳(概要): Neural Execution Engines: Learning to Execute Subroutines

論文の概要: Neural Execution Engines: Learning to Execute Subroutines

arxiv url: http://arxiv.org/abs/2006.08084v3
Date: Thu, 22 Oct 2020 22:20:54 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-21 02:13:25.048003
Title: Neural Execution Engines: Learning to Execute Subroutines
Title（参考訳）: ニューラル実行エンジン:サブルーチンの実行を学習する
Authors: Yujun Yan, Kevin Swersky, Danai Koutra, Parthasarathy Ranganathan, Milad Hashemi
Abstract要約: 本稿では, ソート, 最短経路, 最小スパンニング木などの共通アルゴリズムを構成する数値サブルーチンのレベルでの一般化問題について検討する。データを一般化するために、バイナリ表現で数値を符号化すると、加算や乗算のような下流のタスクで訓練されたリッチな構造で埋め込みされることを示す。
参考スコア（独自算出の注目度）: 29.036699193820215
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A significant effort has been made to train neural networks that replicate algorithmic reasoning, but they often fail to learn the abstract concepts underlying these algorithms. This is evidenced by their inability to generalize to data distributions that are outside of their restricted training sets, namely larger inputs and unseen data. We study these generalization issues at the level of numerical subroutines that comprise common algorithms like sorting, shortest paths, and minimum spanning trees. First, we observe that transformer-based sequence-to-sequence models can learn subroutines like sorting a list of numbers, but their performance rapidly degrades as the length of lists grows beyond those found in the training set. We demonstrate that this is due to attention weights that lose fidelity with longer sequences, particularly when the input numbers are numerically similar. To address the issue, we propose a learned conditional masking mechanism, which enables the model to strongly generalize far outside of its training range with near-perfect accuracy on a variety of algorithms. Second, to generalize to unseen data, we show that encoding numbers with a binary representation leads to embeddings with rich structure once trained on downstream tasks like addition or multiplication. This allows the embedding to handle missing data by faithfully interpolating numbers not seen during training.
Abstract（参考訳）: アルゴリズム推論を再現するニューラルネットワークのトレーニングには多大な努力が払われているが、これらのアルゴリズムの根底にある抽象概念を学ばないことが多い。これは、制限されたトレーニングセットの外にあるデータ分布、すなわちより大きな入力と見えないデータに一般化できないことが証明されている。これらの一般化問題を、ソート、最短経路、最小幅木といった一般的なアルゴリズムを構成する数値サブルーチンのレベルで研究する。まず,トランスフォーマティブ・シーケンス・ツー・シーケンス・モデルは数のリストのソートのようなサブルーチンを学習できるが,リストの長さがトレーニングセットに含まれるものよりも大きくなると,そのパフォーマンスは急速に低下する。これは、特に入力数が数値的に類似している場合に、長い列との忠実性を失う注意重みによるものである。そこで本研究では,学習範囲の外側を,様々なアルゴリズムでほぼ完璧に近い精度で強く一般化する学習条件マスク機構を提案する。第二に,非知覚データに一般化するために,バイナリ表現による数値のエンコーディングは,加算や乗算などの下流タスクで訓練された後にリッチな構造を持つ組込みに繋がることを示す。これにより、トレーニング中に見えない数値を忠実に補間することで、埋め込みが行方不明データを処理することができる。

関連論文リスト

Teaching Arithmetic to Small Transformers [39.72665384986095]
本研究では,小形変圧器が算術演算を効率的に学習する方法について検討する。まず,従来の学習データが算術学習に最も効果的でないことを示す。次に、中間ステップの結果を含むチェーン・オブ・シンクスタイルのデータをトレーニングします。
論文参考訳（メタデータ） (2023-07-07T04:33:31Z)
Distributive Pre-Training of Generative Modeling Using Matrix-Product States [0.0]
本稿では,基本的なテンソルネットワーク操作,例えば和と圧縮を利用した代替的なトレーニング手法を検討する。トレーニングアルゴリズムは、製品状態表現におけるすべてのトレーニングデータから構築された重ね合わせ状態を圧縮する。 MNISTデータセット上でアルゴリズムをベンチマークし、新しい画像と分類タスクを生成するための妥当な結果を示す。
論文参考訳（メタデータ） (2023-06-26T15:46:08Z)
Towards Better Out-of-Distribution Generalization of Neural Algorithmic Reasoning Tasks [51.8723187709964]
ニューラルネットワーク推論タスクのOOD一般化について検討する。目標は、ディープニューラルネットワークを使用して入出力ペアからアルゴリズムを学ぶことである。
論文参考訳（メタデータ） (2022-11-01T18:33:20Z)
Refining neural network predictions using background knowledge [68.35246878394702]
学習システムにおける論理的背景知識を用いて,ラベル付きトレーニングデータの不足を補うことができることを示す。そこで本研究では,修正された予測を元の予測に近い精度で検出する微分可能精細関数を提案する。このアルゴリズムは、複雑なSATの公式に対して、非常に少ない繰り返しで最適に洗練され、勾配降下ができない解がしばしば見つかる。
論文参考訳（メタデータ） (2022-06-10T10:17:59Z)
Discovering Non-monotonic Autoregressive Orderings with Variational Inference [67.27561153666211]
我々は、訓練データから高品質な生成順序を純粋に検出する、教師なし並列化可能な学習装置を開発した。エンコーダを非因果的注意を持つトランスフォーマーとして実装し、1つのフォワードパスで置換を出力する。言語モデリングタスクにおける経験的結果から,我々の手法は文脈認識であり,一定の順序と競合する,あるいはより優れた順序を見つけることができる。
論文参考訳（メタデータ） (2021-10-27T16:08:09Z)
Alleviate Exposure Bias in Sequence Prediction \\ with Recurrent Neural Networks [47.52214243454995]
繰り返しニューラルネットワーク(RNN)を訓練する一般的な戦略は、各ステップで入力として地上の真実を取ることです。本稿では,RNNの長期的依存関係をよりよく把握するための,完全微分可能なトレーニングアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-03-22T06:15:22Z)
When is Memorization of Irrelevant Training Data Necessary for High-Accuracy Learning? [53.523017945443115]
我々は,十分な精度のトレーニングアルゴリズムが,予測モデルにおいて,そのトレーニング例の大規模サブセットに関する情報を本質的にすべてエンコードしなければならない自然予測問題を記述する。私たちの結果は、トレーニングアルゴリズムや学習に使用されるモデルのクラスに依存しません。
論文参考訳（メタデータ） (2020-12-11T15:25:14Z)
Strong Generalization and Efficiency in Neural Programs [69.18742158883869]
本稿では,ニューラルプログラム誘導の枠組みを強く一般化する効率的なアルゴリズムを学習する問題について検討する。ニューラルネットワークの入力/出力インターフェースを慎重に設計し、模倣することで、任意の入力サイズに対して正しい結果を生成するモデルを学ぶことができる。
論文参考訳（メタデータ） (2020-07-07T17:03:02Z)
Cyclic Boosting -- an explainable supervised machine learning algorithm [0.0]
本稿では,新しい機械学習アルゴリズム"Cyclic Boosting"を提案する。正確な回帰と分類のタスクを効率的に行うと同時に、個々の予測がどのように行われたかの詳細な理解を可能にします。
論文参考訳（メタデータ） (2020-02-09T18:52:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。