論文の概要: Beyond Transformers for Function Learning
- arxiv url: http://arxiv.org/abs/2304.09979v1
- Date: Wed, 19 Apr 2023 21:33:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-21 15:06:51.182248
- Title: Beyond Transformers for Function Learning
- Title(参考訳): 機能学習のためのトランスフォーマー
- Authors: Simon Segert, Jonathan Cohen
- Abstract要約: 単純な関数を学習し、予測する能力は、人間の知性の重要な側面である。
最近の研究はトランスフォーマーアーキテクチャを使ってこの能力を探求し始めている。
2つの単純な帰納的学習バイアスでトランスフォーマーアーキテクチャを拡張することで、このギャップに対処することを提案する。
- 参考スコア(独自算出の注目度): 0.6768558752130311
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to learn and predict simple functions is a key aspect of human
intelligence. Recent works have started to explore this ability using
transformer architectures, however it remains unclear whether this is
sufficient to recapitulate the extrapolation abilities of people in this
domain. Here, we propose to address this gap by augmenting the transformer
architecture with two simple inductive learning biases, that are directly
adapted from recent models of abstract reasoning in cognitive science. The
results we report demonstrate that these biases are helpful in the context of
large neural network models, as well as shed light on the types of inductive
learning biases that may contribute to human abilities in extrapolation.
- Abstract(参考訳): 単純な機能を学習し、予測する能力は、人間の知能の重要な側面である。
最近の研究はトランスフォーマーアーキテクチャを使ってこの能力を探求し始めているが、この領域の人々の外挿能力を再カプセル化するのに十分かどうかは不明だ。
本稿では,認知科学における抽象的推論モデルから直接適応した2つの単純な帰納的学習バイアスでトランスフォーマーアーキテクチャを増大させることにより,このギャップに対処することを提案する。
その結果,これらのバイアスは大規模ニューラルネットワークモデルの文脈において有用であり,外挿における人間の能力に寄与する帰納的学習バイアスの種類にも光を当てることができた。
関連論文リスト
- Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond [61.18736646013446]
その驚くべき振る舞いをより深く理解するために、トレーニングされたニューラルネットワークの単純かつ正確なモデルの有用性について検討する。
3つのケーススタディで、様々な顕著な現象に関する新しい経験的洞察を導き出すためにどのように適用できるかを説明します。
論文 参考訳(メタデータ) (2024-10-31T22:54:34Z) - A distributional simplicity bias in the learning dynamics of transformers [50.91742043564049]
自然言語データに基づいてトレーニングされたトランスフォーマーは、単純さのバイアスも示している。
具体的には、入力トークン間の多体相互作用を逐次学習し、低次相互作用の予測誤差において飽和点に達する。
このアプローチは、自然言語処理などにおいて、データ内の異なる順序の相互作用が学習にどのように影響するかを研究する可能性を開く。
論文 参考訳(メタデータ) (2024-10-25T15:39:34Z) - Transcendence: Generative Models Can Outperform The Experts That Train Them [55.885802048647655]
生成モデルがデータを生成する専門家の能力を超える能力を達成するとき、超越現象を研究する。
我々は,自動回帰変換器をトレーニングして,ゲームスクリプティングからチェスを学習し,トレーニングされたモデルが,データセットのすべてのプレイヤーよりも優れたパフォーマンスが得られることを示す。
論文 参考訳(メタデータ) (2024-06-17T17:00:52Z) - From Neurons to Neutrons: A Case Study in Interpretability [5.242869847419834]
高次元ニューラルネットワークはトレーニングデータの低次元表現を学習することができると我々は主張する。
このことは、解釈可能性に対するそのようなアプローチが、問題を解決するために訓練されたモデルから問題に対する新しい理解を導き出すのに有用であることを示している。
論文 参考訳(メタデータ) (2024-05-27T17:59:35Z) - The Generative AI Paradox: "What It Can Create, It May Not Understand" [81.89252713236746]
生成AIの最近の波は、潜在的に超人的な人工知能レベルに対する興奮と懸念を引き起こしている。
同時に、モデルは、専門家でない人でも期待できないような理解の基本的な誤りを示している。
一見超人的な能力と、ごく少数の人間が起こすエラーの持続性を、どうやって再現すればよいのか?
論文 参考訳(メタデータ) (2023-10-31T18:07:07Z) - Using Natural Language and Program Abstractions to Instill Human
Inductive Biases in Machines [27.79626958016208]
メタラーニングによって訓練されたエージェントは、人間とは全く異なる戦略をとる可能性がある。
これらのエージェントを自然言語のタスク記述から表現を予測し、そのようなタスクを生成するために誘導されるプログラムから学習することで、人間のような帰納的バイアスに導かれることを示す。
論文 参考訳(メタデータ) (2022-05-23T18:17:58Z) - Learning Theory of Mind via Dynamic Traits Attribution [59.9781556714202]
本稿では,過去のトラジェクトリからアクターの潜在特性ベクトルを生成するニューラルToMアーキテクチャを提案する。
この特性ベクトルは、予測ニューラルネットワークの高速重み付けスキームを介して予測機構を乗法的に変調する。
実験により,高速重量はエージェントの特性をモデル化し,マインドリーディング能力を向上させるために優れた誘導バイアスを与えることが示された。
論文 参考訳(メタデータ) (2022-04-17T11:21:18Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - On the Bias Against Inductive Biases [34.10348216388905]
視覚タスクのための自己教師付き特徴学習は、これらの非常に深い等方性ネットワークを使用して最先端の成功を収めた。
本研究では、教師なし視覚特徴学習に用いる小型・中等度等方性ネットワークに対する誘導バイアスの効果を解析する。
論文 参考訳(メタデータ) (2021-05-28T19:41:48Z) - Malicious Network Traffic Detection via Deep Learning: An Information
Theoretic View [0.0]
本研究では,ホメオモルフィズムがマルウェアのトラフィックデータセットの学習表現に与える影響について検討する。
この結果から,学習された表現の詳細と,すべてのパラメータの多様体上で定義された特定の座標系は,関数近似とは全く異なることが示唆された。
論文 参考訳(メタデータ) (2020-09-16T15:37:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。