論文の概要: Energy Transformer
- arxiv url: http://arxiv.org/abs/2302.07253v1
- Date: Tue, 14 Feb 2023 18:51:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-15 14:32:06.809549
- Title: Energy Transformer
- Title(参考訳): エネルギー変換器
- Authors: Benjamin Hoover, Yuchen Liang, Bao Pham, Rameswar Panda, Hendrik
Strobelt, Duen Horng Chau, Mohammed J. Zaki, Dmitry Krotov
- Abstract要約: 本稿では,フィードフォワード変換ブロックのシーケンスを1つの大きな連想記憶モデルに置き換えるトランスフォーマーアーキテクチャを提案する。
私たちの新しいアーキテクチャは、Energy Transformer(略してET)と呼ばれ、現在のトランスフォーマーの世代でよく使われている、よく知られたアーキテクチャプリミティブの多くを持っています。
- 参考スコア(独自算出の注目度): 42.30524330888148
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Transformers have become the de facto models of choice in machine learning,
typically leading to impressive performance on many applications. At the same
time, the architectural development in the transformer world is mostly driven
by empirical findings, and the theoretical understanding of their architectural
building blocks is rather limited. In contrast, Dense Associative Memory models
or Modern Hopfield Networks have a well-established theoretical foundation, but
have not yet demonstrated truly impressive practical results. We propose a
transformer architecture that replaces the sequence of feedforward transformer
blocks with a single large Associative Memory model. Our novel architecture,
called Energy Transformer (or ET for short), has many of the familiar
architectural primitives that are often used in the current generation of
transformers. However, it is not identical to the existing architectures. The
sequence of transformer layers in ET is purposely designed to minimize a
specifically engineered energy function, which is responsible for representing
the relationships between the tokens. As a consequence of this computational
principle, the attention in ET is different from the conventional attention
mechanism. In this work, we introduce the theoretical foundations of ET,
explore it's empirical capabilities using the image completion task, and obtain
strong quantitative results on the graph anomaly detection task.
- Abstract(参考訳): トランスフォーマーは機械学習のデファクトモデルとなり、多くのアプリケーションにおいて印象的なパフォーマンスをもたらす。
同時に、トランスフォーマーの世界におけるアーキテクチャ開発は、主に経験的な発見によって推進され、そのアーキテクチャ構築ブロックの理論的理解は、かなり限られている。
対照的に、Dense Associative Memory ModelやModern Hopfield Networksは確立された理論基盤を持っているが、実際的な成果は示されていない。
本稿では,フィードフォワード変換ブロックのシーケンスを1つの大きな連想記憶モデルに置き換えるトランスフォーマーアーキテクチャを提案する。
私たちの新しいアーキテクチャは、エネルギートランスフォーマー(略してet)と呼ばれ、現在の世代のトランスフォーマーでよく使われるアーキテクチャプリミティブを数多く備えています。
しかし、既存の建築とは同一ではない。
ETの変圧器層の配列は、トークン間の関係を表現する責任を負う特別に設計されたエネルギー関数を最小化するように設計されている。
この計算原理の結果として、ETにおける注意は従来の注意機構とは異なる。
本稿では,ETの理論的基礎を紹介し,画像補完タスクを用いた経験的能力を探究し,グラフ異常検出タスクにおける強力な定量的結果を得る。
関連論文リスト
- Learning Iterative Reasoning through Energy Diffusion [90.24765095498392]
我々は,エネルギー拡散による反復的推論(IRED)を紹介した。
IREDは入力条件と所望の出力の間の制約を表現するためにエネルギー関数を学ぶ。
IREDは、連続空間推論、離散空間推論、計画タスクにおいて既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-17T03:36:47Z) - A Proposed Quantum Hamiltonian Encoding Framework for Time Evolution
Operator Design of Potential Energy Function [1.2277343096128712]
この研究は、量子化学と凝縮物質物理学にまたがる応用のためのポテンシャルエネルギー関数による時間進化の操作について検討する。
アルゴリズムはシミュレータとIBM量子ハードウェアで実装され、その有効性を証明した。
論文 参考訳(メタデータ) (2023-08-12T07:37:42Z) - On Feature Diversity in Energy-based Models [98.78384185493624]
エネルギーベースモデル(EBM)は通常、異なる特徴の組み合わせを学習し、入力構成ごとにエネルギーマッピングを生成する内部モデルによって構成される。
EBMのほぼ正しい(PAC)理論を拡張し,EBMの性能に及ぼす冗長性低減の影響を解析した。
論文 参考訳(メタデータ) (2023-06-02T12:30:42Z) - Joint Feature and Differentiable $ k $-NN Graph Learning using Dirichlet
Energy [103.74640329539389]
特徴選択と識別可能な$k $-NNグラフ学習を同時に行うディープFS法を提案する。
我々は、ニューラルネットワークで$ k $-NNグラフを学習する際の非微分可能性問題に対処するために、最適輸送理論を用いる。
本モデルの有効性を,合成データセットと実世界のデータセットの両方で広範な実験により検証する。
論文 参考訳(メタデータ) (2023-05-21T08:15:55Z) - Energy-frugal and Interpretable AI Hardware Design using Learning
Automata [5.514795777097036]
Tsetlin Machineと呼ばれる新しい機械学習アルゴリズムが提案されている。
本稿では,エネルギーフルーガルな人工知能ハードウェア設計手法について検討する。
本研究は, 資源配分が, 頑健かつ解釈可能な学習を達成しつつ, 決定的なエネルギー削減をもたらすことを示す。
論文 参考訳(メタデータ) (2023-05-19T15:11:18Z) - Robust and Controllable Object-Centric Learning through Energy-based
Models [95.68748828339059]
我々の研究は概念的にシンプルで一般的なアプローチであり、エネルギーベースモデルを通してオブジェクト中心の表現を学習する。
既存のアーキテクチャに容易に統合でき、高品質なオブジェクト中心表現を効果的に抽出できることを示す。
論文 参考訳(メタデータ) (2022-10-11T15:11:15Z) - Energy Consumption of Neural Networks on NVIDIA Edge Boards: an
Empirical Model [6.809944967863927]
近年、レイテンシの低減とデータプライバシの保護のために、ディープラーニング推論タスクの実行を、ユーザに近いネットワークのエッジにシフトする傾向があります。
本研究では,現代のエッジノードにおける推論タスクのエネルギ消費をプロファイリングすることを目的とする。
そこで我々は, 検討ボード上である推論タスクのエネルギー消費を推定できる, 単純で実用的なモデルを構築した。
論文 参考訳(メタデータ) (2022-10-04T14:12:59Z) - Learning Energy Networks with Generalized Fenchel-Young Losses [34.46284877812228]
エネルギーに基づくモデル、すなわちエネルギーネットワークはエネルギー関数を最適化することで推論を行う。
学習エネルギーネットワークの自然損失構造であるFenchel-Young損失の一般化を提案する。
論文 参考訳(メタデータ) (2022-05-19T14:32:04Z) - Attention Mechanism with Energy-Friendly Operations [61.58748425876866]
我々はエネルギー消費の観点から注意機構を再考する。
我々は、乗算を選択的操作または加算に置き換えることで、新しい注意モデルを構築する。
3つの機械翻訳タスクにおける実験結果から,提案手法が再現可能な精度を実現することを示す。
論文 参考訳(メタデータ) (2022-04-28T08:50:09Z) - Learning Energy-Based Approximate Inference Networks for Structured
Applications in NLP [8.426855646402238]
論文はエネルギーモデルへの一般的な導入から始まる。
構造エネルギー関数の下でargmax推論を行うようにニューラルネットワークを訓練する手法を提案する。
そこで我々は,対立学習フレームワークを用いて,エネルギー関数と推論ネットワークを協調的に学習する方法を開発した。
論文 参考訳(メタデータ) (2021-08-27T22:48:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。