論文の概要: On the Markov Property of Neural Algorithmic Reasoning: Analyses and
Methods
- arxiv url: http://arxiv.org/abs/2403.04929v1
- Date: Thu, 7 Mar 2024 22:35:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 21:36:04.508222
- Title: On the Markov Property of Neural Algorithmic Reasoning: Analyses and
Methods
- Title(参考訳): ニューラルネットワーク推論のマルコフ特性について:解析と方法
- Authors: Montgomery Bohde, Meng Liu, Alexandra Saxton, Shuiwang Ji
- Abstract要約: ForgetNetは歴史的埋め込みを使わないので、タスクのマルコフの性質と一致している。
また、G-ForgetNetを導入し、G-ForgetNetは歴史的埋め込みの選択的統合を可能にするゲーティング機構を使用している。
我々の実験はCLRS-30アルゴリズム推論ベンチマークに基づいて、ForgetNetとG-ForgetNetの両方が既存の手法よりも優れた一般化を実現することを示した。
- 参考スコア(独自算出の注目度): 94.72563337153268
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural algorithmic reasoning is an emerging research direction that endows
neural networks with the ability to mimic algorithmic executions step-by-step.
A common paradigm in existing designs involves the use of historical embeddings
in predicting the results of future execution steps. Our observation in this
work is that such historical dependence intrinsically contradicts the Markov
nature of algorithmic reasoning tasks. Based on this motivation, we present our
ForgetNet, which does not use historical embeddings and thus is consistent with
the Markov nature of the tasks. To address challenges in training ForgetNet at
early stages, we further introduce G-ForgetNet, which uses a gating mechanism
to allow for the selective integration of historical embeddings. Such an
enhanced capability provides valuable computational pathways during the model's
early training phase. Our extensive experiments, based on the CLRS-30
algorithmic reasoning benchmark, demonstrate that both ForgetNet and
G-ForgetNet achieve better generalization capability than existing methods.
Furthermore, we investigate the behavior of the gating mechanism, highlighting
its degree of alignment with our intuitions and its effectiveness for robust
performance.
- Abstract(参考訳): ニューラルネットワークの推論は、アルゴリズムの実行をステップバイステップで模倣する能力を備えた、ニューラルネットワークを支援する新たな研究方向である。
既存の設計における共通のパラダイムは、将来の実行手順の結果を予測するために歴史的埋め込みを使用することである。
この研究における我々の見解は、このような歴史的依存がアルゴリズム推論タスクのマルコフの性質と本質的に矛盾しているということである。
このモチベーションに基づいて、歴史的埋め込みを使用しないForgetNetを提示し、タスクのマルコフの性質と整合性を示す。
初期段階におけるg-forgetnetのトレーニングにおける課題に対処するため、g-forgetnetをさらに導入する。
このような拡張された能力は、モデルの早期訓練期間中に貴重な計算経路を提供する。
CLRS-30アルゴリズム推論ベンチマークに基づく大規模な実験により, ForgetNet と G-ForgetNet が既存手法よりも優れた一般化を実現することを示す。
さらに, ゲーティング機構の挙動について検討し, 直観と一致度およびロバスト性能に対する有効性について検討した。
関連論文リスト
- Learning-Augmented Algorithms with Explicit Predictors [67.02156211760415]
アルゴリズム設計の最近の進歩は、過去のデータと現在のデータから得られた機械学習モデルによる予測の活用方法を示している。
この文脈における以前の研究は、予測器が過去のデータに基づいて事前訓練され、ブラックボックスとして使用されるパラダイムに焦点を当てていた。
本研究では,予測器を解き,アルゴリズムの課題の中で生じる学習問題を統合する。
論文 参考訳(メタデータ) (2024-03-12T08:40:21Z) - Reasoning Algorithmically in Graph Neural Networks [1.8130068086063336]
ニューラルネットワークの適応学習能力にアルゴリズムの構造的および規則に基づく推論を統合することを目的としている。
この論文は、この領域の研究に理論的および実践的な貢献を提供する。
論文 参考訳(メタデータ) (2024-02-21T12:16:51Z) - Neural Attention: Enhancing QKV Calculation in Self-Attention Mechanism
with Neural Networks [25.75678339426731]
本稿では,QKVを用いたニューラルネットワークの計算手法について検討する。
我々は、IWSLT 2017ドイツ語翻訳タスクデータセットの実験を行い、従来の手法で近似した。
また,Wikitext-103データセットを用いてRobertaモデルをトレーニングする際の優位性を示した。
論文 参考訳(メタデータ) (2023-10-17T17:06:26Z) - Learning Expressive Priors for Generalization and Uncertainty Estimation
in Neural Networks [77.89179552509887]
本稿では,ディープニューラルネットワークにおける一般化と不確実性推定を推し進める新しい事前学習手法を提案する。
キーとなる考え方は、ニューラルネットワークのスケーラブルで構造化された後部を、一般化を保証する情報的事前として活用することである。
本研究では,不確実性推定と一般化における本手法の有効性を徹底的に示す。
論文 参考訳(メタデータ) (2023-07-15T09:24:33Z) - Neural Algorithmic Reasoning Without Intermediate Supervision [21.852775399735005]
我々は、中間的監督に訴えることなく、入出力ペアからのみニューラルネットワーク推論を学ぶことに集中する。
我々は、アルゴリズムの軌跡にアクセスできることなく、モデルの中間計算を正規化できる自己教師対象を構築する。
CLRSic Algorithmic Reasoning Benchmarkのタスクにおいて,提案手法はトラジェクトリを教師する手法と競合することを示す。
論文 参考訳(メタデータ) (2023-06-23T09:57:44Z) - Neural Algorithmic Reasoning with Causal Regularisation [18.299363749150093]
我々は重要な観察を行う: アルゴリズムが特定の中間計算を同一に実行する多くの異なる入力が存在する。
この洞察により、アルゴリズムの中間軌道が与えられた場合、ターゲットアルゴリズムが全く同じ次の軌道ステップを持つような入力を生成するデータ拡張手順を開発することができる。
我々は、Hint-Relicと呼ばれる結果の手法が、推論器のOOD一般化能力を改善することを証明した。
論文 参考訳(メタデータ) (2023-02-20T19:41:15Z) - On learning history based policies for controlling Markov decision
processes [44.17941122294582]
本稿では,MDPの制御を学習するRLアルゴリズムの動作を研究するための理論的枠組みを提案する。
本研究では,一連の連続制御タスクにおいて,その効果を数値的に評価する。
論文 参考訳(メタデータ) (2022-11-06T02:47:55Z) - MARS: Meta-Learning as Score Matching in the Function Space [79.73213540203389]
本稿では,一連の関連するデータセットから帰納バイアスを抽出する手法を提案する。
機能的ベイズニューラルネットワーク推論を用いて、前者をプロセスとみなし、関数空間で推論を行う。
本手法は,データ生成プロセスのスコア関数をメタラーニングすることにより,複雑な事前知識をシームレスに獲得し,表現することができる。
論文 参考訳(メタデータ) (2022-10-24T15:14:26Z) - Untangling tradeoffs between recurrence and self-attention in neural
networks [81.30894993852813]
本稿では,再帰的ネットワークにおける自己注意が勾配伝播に与える影響を公式に分析する。
長期的な依存関係を捉えようとするとき、勾配をなくすことの問題を緩和することを証明する。
本稿では,スパース自己アテンションを反復的にスケーラブルに利用するための関連性スクリーニング機構を提案する。
論文 参考訳(メタデータ) (2020-06-16T19:24:25Z) - Spiking Neural Networks Hardware Implementations and Challenges: a
Survey [53.429871539789445]
スパイキングニューラルネットワークは、ニューロンとシナプスの操作原理を模倣する認知アルゴリズムである。
スパイキングニューラルネットワークのハードウェア実装の現状について述べる。
本稿では,これらのイベント駆動アルゴリズムの特性をハードウェアレベルで活用するための戦略について論じる。
論文 参考訳(メタデータ) (2020-05-04T13:24:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。