論文の概要: End-to-end Algorithm Synthesis with Recurrent Networks: Logical
Extrapolation Without Overthinking
- arxiv url: http://arxiv.org/abs/2202.05826v2
- Date: Tue, 15 Feb 2022 14:38:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-16 11:39:07.555283
- Title: End-to-end Algorithm Synthesis with Recurrent Networks: Logical
Extrapolation Without Overthinking
- Title(参考訳): リカレントネットワークを用いたエンドツーエンドアルゴリズム合成:再考せずに論理的外挿
- Authors: Arpit Bansal, Avi Schwarzschild, Eitan Borgnia, Zeyad Emam, Furong
Huang, Micah Goldblum, Tom Goldstein
- Abstract要約: 機械学習システムが問題を過度に考えずに論理的外挿を行う方法を示す。
本稿では,問題インスタンスの明示的なコピーをメモリに保持して,それを忘れないようにするリコールアーキテクチャを提案する。
また、モデルが数に固有の行動を学ぶのを防ぎ、無期限に繰り返される行動を学ぶためにモデルをプッシュするプログレッシブトレーニングルーチンも採用しています。
- 参考スコア(独自算出の注目度): 52.05847268235338
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning systems perform well on pattern matching tasks, but their
ability to perform algorithmic or logical reasoning is not well understood. One
important reasoning capability is logical extrapolation, in which models
trained only on small/simple reasoning problems can synthesize complex
algorithms that scale up to large/complex problems at test time. Logical
extrapolation can be achieved through recurrent systems, which can be iterated
many times to solve difficult reasoning problems. We observe that this approach
fails to scale to highly complex problems because behavior degenerates when
many iterations are applied -- an issue we refer to as "overthinking." We
propose a recall architecture that keeps an explicit copy of the problem
instance in memory so that it cannot be forgotten. We also employ a progressive
training routine that prevents the model from learning behaviors that are
specific to iteration number and instead pushes it to learn behaviors that can
be repeated indefinitely. These innovations prevent the overthinking problem,
and enable recurrent systems to solve extremely hard logical extrapolation
tasks, some requiring over 100K convolutional layers, without overthinking.
- Abstract(参考訳): 機械学習システムはパターンマッチングタスクでよく機能するが、アルゴリズム的あるいは論理的推論を行う能力はよく理解されていない。
1つの重要な推論能力は論理補間であり、小さな/単純な推論問題にのみ訓練されたモデルは、テスト時に大規模/複雑な問題までスケールアップする複雑なアルゴリズムを合成できる。
論理的な外挿は反復システムによって達成でき、難しい推論問題を解決するために何度も反復することができる。
このアプローチは、多くのイテレーションが適用されると振る舞いが縮退するため、非常に複雑な問題にスケールできないことを観察します。
本稿では,問題インスタンスの明示的なコピーをメモリに保持して,それを忘れないようにするリコールアーキテクチャを提案する。
また、反復数に固有の振る舞いをモデルが学習するのを防ぎ、無期限に繰り返しられる振る舞いを学習するためにモデルをプッシュするプログレッシブトレーニングルーチンも採用しています。
これらのイノベーションは、過度に考え抜かれた問題を防ぎ、リカレントシステムは、過度にハードな論理的補間タスクを解くことができる。
関連論文リスト
- The Clock and the Pizza: Two Stories in Mechanistic Explanation of
Neural Networks [59.26515696183751]
ニューラルネットワークにおけるアルゴリズム発見は、時としてより複雑であることを示す。
単純な学習問題でさえ、驚くほど多様なソリューションを許容できることが示されています。
論文 参考訳(メタデータ) (2023-06-30T17:59:13Z) - The Art of SOCRATIC QUESTIONING: Recursive Thinking with Large Language
Models [45.01562498702836]
CoT(Chain-of-Thought)は、中間ステップを生成することで、大規模言語モデルによる複雑な推論問題の解決を可能にする。
本稿では,再帰的思考過程を模倣する分割・対数型アルゴリズムであるSOCRATIC QUESTIONINGを提案する。
論文 参考訳(メタデータ) (2023-05-24T10:36:14Z) - Chaining Simultaneous Thoughts for Numerical Reasoning [92.2007997126144]
テキストによる数値推論は、AIシステムにとって不可欠なスキルであるべきです。
これまでの研究は方程式の構造をモデル化することに集中し、様々な構造化デコーダを提案してきた。
我々は、有向非巡回グラフを用いてステップを推論する数値推論器CANTORを提案する。
論文 参考訳(メタデータ) (2022-11-29T18:52:06Z) - Learning Iterative Reasoning through Energy Minimization [77.33859525900334]
ニューラルネットワークを用いた反復推論のための新しいフレームワークを提案する。
すべての出力に対してエネルギーランドスケープをパラメータ化するために、ニューラルネットワークをトレーニングします。
エネルギー最小化ステップとして反復推論の各ステップを実装し,最小限のエネルギー解を求める。
論文 参考訳(メタデータ) (2022-06-30T17:44:20Z) - Can You Learn an Algorithm? Generalizing from Easy to Hard Problems with
Recurrent Networks [47.54459795966417]
単純な問題を解くために訓練されたリカレントネットワークは、推論中に追加の繰り返しを実行するだけで、はるかに複雑な問題を解くことができることを示す。
これら3つのドメインすべてにおいて、単純な問題インスタンスに基づいてトレーニングされたネットワークは、単に"もっと長く考える"ことで、テスト時に推論能力を拡張することができる。
論文 参考訳(メタデータ) (2021-06-08T17:19:48Z) - Differentiable Logic Machines [38.21461039738474]
微分可能論理マシン(DLM)と呼ばれる新しいニューラル論理アーキテクチャを提案する。
DLMは帰納論理プログラミング(ILP)と強化学習(RL)の両方の問題を解くことができる。
解釈可能な解を必要としないRL問題では、DLMは他の解釈不可能なニューラル論理的RLアプローチよりも優れている。
論文 参考訳(メタデータ) (2021-02-23T07:31:52Z) - Thinking Deeply with Recurrence: Generalizing from Easy to Hard
Sequential Reasoning Problems [51.132938969015825]
我々は、リカレントネットワークは、非リカレントディープモデルの振る舞いを詳細にエミュレートする能力を有することを観察する。
再帰ステップの少ない単純な迷路を解くように訓練された再帰ネットワークは、推論中に追加の繰り返しを実行するだけで、より複雑な問題を解決することができる。
論文 参考訳(メタデータ) (2021-02-22T14:09:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。