論文の概要: Training Neural Networks with Internal State, Unconstrained
Connectivity, and Discrete Activations
- arxiv url: http://arxiv.org/abs/2312.14359v1
- Date: Fri, 22 Dec 2023 01:19:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-25 16:39:37.563922
- Title: Training Neural Networks with Internal State, Unconstrained
Connectivity, and Discrete Activations
- Title(参考訳): 内部状態、制約のない接続、離散的アクティベーションを用いたニューラルネットワークのトレーニング
- Authors: Alexander Grushin
- Abstract要約: 真のインテリジェンスには、内部状態を管理するマシンラーニングモデルが必要だ。
このようなモデルのトレーニングに最も効果的なアルゴリズムは,まだ発見されていない。
このようなトレーニングアルゴリズムを2進アクティベーションと1つの重みの行列のみを持つアーキテクチャに適用する試みについて述べる。
- 参考スコア(独自算出の注目度): 66.53734987585244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Today's most powerful machine learning approaches are typically designed to
train stateless architectures with predefined layers and differentiable
activation functions. While these approaches have led to unprecedented
successes in areas such as natural language processing and image recognition,
the trained models are also susceptible to making mistakes that a human would
not. In this paper, we take the view that true intelligence may require the
ability of a machine learning model to manage internal state, but that we have
not yet discovered the most effective algorithms for training such models. We
further postulate that such algorithms might not necessarily be based on
gradient descent over a deep architecture, but rather, might work best with an
architecture that has discrete activations and few initial topological
constraints (such as multiple predefined layers). We present one attempt in our
ongoing efforts to design such a training algorithm, applied to an architecture
with binary activations and only a single matrix of weights, and show that it
is able to form useful representations of natural language text, but is also
limited in its ability to leverage large quantities of training data. We then
provide ideas for improving the algorithm and for designing other training
algorithms for similar architectures. Finally, we discuss potential benefits
that could be gained if an effective training algorithm is found, and suggest
experiments for evaluating whether these benefits exist in practice.
- Abstract(参考訳): 今日の最も強力な機械学習アプローチは、通常、事前に定義されたレイヤと異なるアクティベーション機能を持つステートレスアーキテクチャをトレーニングするために設計されている。
これらのアプローチは、自然言語処理や画像認識といった分野で前例のない成功を収める一方で、トレーニングされたモデルは、人間がしないような間違いを犯しやすい。
本稿では、真の知性は内部状態を管理するために機械学習モデルの能力を必要とするかもしれないが、そのようなモデルを訓練するための最も効果的なアルゴリズムはまだ発見されていない。
我々はさらに、そのようなアルゴリズムは必ずしも深いアーキテクチャ上の勾配降下に基づくものではなく、むしろ、離散的なアクティベーションと、(複数の事前定義された層のような)初期トポロジー的制約の少ないアーキテクチャが最もうまく機能するかもしれないと仮定する。
我々は,このような学習アルゴリズムの設計を継続する試みの1つとして,バイナリアクティベーションと重みの行列のみを持つアーキテクチャに適用し,自然言語テキストの有用な表現を生成できるが,大量のトレーニングデータを活用する能力に制限があることを示す。
次に、アルゴリズムの改善と、類似したアーキテクチャのための他のトレーニングアルゴリズムを設計するためのアイデアを提供する。
最後に,効果的な学習アルゴリズムが見つかると得られる潜在的な利点について議論し,その効果が実際に存在するかどうかを評価する実験を提案する。
関連論文リスト
- Task Agnostic Architecture for Algorithm Induction via Implicit Composition [10.627575117586417]
本研究の目的は,このような統一アーキテクチャの構築を探求することであり,その構築方法に関する理論的枠組みを提案することである。
最近のジェネレーティブAI、特にトランスフォーマーベースのモデルは、幅広い領域のアルゴリズムを構築することができるアーキテクチャとしての可能性を示している。
アルゴリズム合成におけるトランスフォーマーおよび他の手法の現在の機能と限界について検討する。
論文 参考訳(メタデータ) (2024-04-03T04:31:09Z) - Towards a population-informed approach to the definition of data-driven
models for structural dynamics [0.0]
ここでは人口ベーススキームを踏襲し、メタラーニング領域からの2つの異なる機械学習アルゴリズムを用いる。
このアルゴリズムは、従来の機械学習アルゴリズムよりも、関心の量を近似するのが目的のようだ。
論文 参考訳(メタデータ) (2023-07-19T09:45:41Z) - A Generalist Neural Algorithmic Learner [18.425083543441776]
我々は、幅広いアルゴリズムを実行することを学習できる単一のグラフニューラルネットワークプロセッサを構築している。
マルチタスク方式でアルゴリズムを効果的に学習できることを示す。
論文 参考訳(メタデータ) (2022-09-22T16:41:33Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - Joint Learning of Neural Transfer and Architecture Adaptation for Image
Recognition [77.95361323613147]
現在の最先端の視覚認識システムは、大規模データセット上でニューラルネットワークを事前トレーニングし、より小さなデータセットでネットワーク重みを微調整することに依存している。
本稿では,各ドメインタスクに適応したネットワークアーキテクチャの動的適応と,効率と効率の両面で重みの微調整の利点を実証する。
本手法は,ソースドメインタスクでスーパーネットトレーニングを自己教師付き学習に置き換え,下流タスクで線形評価を行うことにより,教師なしパラダイムに容易に一般化することができる。
論文 参考訳(メタデータ) (2021-03-31T08:15:17Z) - Fast Object Segmentation Learning with Kernel-based Methods for Robotics [21.48920421574167]
オブジェクトセグメンテーションは、把握やオブジェクト操作といったタスクを実行するロボットの視覚システムにおいて重要なコンポーネントである。
本稿では,オブジェクトセグメンテーションのための新しいアーキテクチャを提案する。これはこの問題を克服し,最先端の手法で必要とされる時間に匹敵する性能を提供する。
本手法はコンピュータビジョンとロボティクスのコミュニティで広く採用されているYCB-Videoデータセットで検証されている。
論文 参考訳(メタデータ) (2020-11-25T15:07:39Z) - Learned Greedy Method (LGM): A Novel Neural Architecture for Sparse
Coding and Beyond [24.160276545294288]
同じ目的のために,欲求追従アルゴリズムの展開版を提案する。
Learned Greedy Method(LGM)のキーとなる特徴は、動的に展開された複数のレイヤに対応する能力である。
論文 参考訳(メタデータ) (2020-10-14T13:17:02Z) - Learning to Stop While Learning to Predict [85.7136203122784]
多くのアルゴリズムにインスパイアされたディープモデルは全ての入力に対して固定深度に制限される。
アルゴリズムと同様に、深いアーキテクチャの最適深さは、異なる入力インスタンスに対して異なるかもしれない。
本稿では, ステアブルアーキテクチャを用いて, この様々な深さ問題に対処する。
学習した深層モデルと停止ポリシーにより,多様なタスクセットのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2020-06-09T07:22:01Z) - AutoML-Zero: Evolving Machine Learning Algorithms From Scratch [76.83052807776276]
基本数学的操作をビルディングブロックとして使うだけで,完全な機械学習アルゴリズムを自動的に発見できることが示される。
汎用的な検索空間を通じて人間のバイアスを大幅に低減する新しいフレームワークを導入することでこれを実証する。
機械学習アルゴリズムをゼロから発見する上で、これらの予備的な成功は、この分野における有望な新しい方向性を示していると信じている。
論文 参考訳(メタデータ) (2020-03-06T19:00:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。