論文の概要: On Limitation of Transformer for Learning HMMs
- arxiv url: http://arxiv.org/abs/2406.04089v1
- Date: Thu, 6 Jun 2024 13:59:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 14:40:14.329136
- Title: On Limitation of Transformer for Learning HMMs
- Title(参考訳): HMM学習用変圧器の限界について
- Authors: Jiachen Hu, Qinghua Liu, Chi Jin,
- Abstract要約: 本稿では,隠れマルコフモデル(HMM)の学習における変換器の性能について検討する。
我々は,トランスフォーマーが,すべてのテスト済みHMMモデルに対して,トレーニング速度とテスト精度の両方で連続ニューラルネットワーク(Recurrent Neural Networks, RNN)の性能を一貫して低下させることを示した。
さらに,HMMのタイプと複雑さに基づいて,トランスフォーマーの深さと,それが効果的に学習できるシーケンス長との関係を明らかにした。
- 参考スコア(独自算出の注目度): 31.128172929754058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the remarkable success of Transformer-based architectures in various sequential modeling tasks, such as natural language processing, computer vision, and robotics, their ability to learn basic sequential models, like Hidden Markov Models (HMMs), is still unclear. This paper investigates the performance of Transformers in learning HMMs and their variants through extensive experimentation and compares them to Recurrent Neural Networks (RNNs). We show that Transformers consistently underperform RNNs in both training speed and testing accuracy across all tested HMM models. There are even challenging HMM instances where Transformers struggle to learn, while RNNs can successfully do so. Our experiments further reveal the relation between the depth of Transformers and the longest sequence length it can effectively learn, based on the types and the complexity of HMMs. To address the limitation of transformers in modeling HMMs, we demonstrate that a variant of the Chain-of-Thought (CoT), called $\textit{block CoT}$ in the training phase, can help transformers to reduce the evaluation error and to learn longer sequences at a cost of increasing the training time. Finally, we complement our empirical findings by theoretical results proving the expressiveness of transformers in approximating HMMs with logarithmic depth.
- Abstract(参考訳): 自然言語処理、コンピュータビジョン、ロボット工学といった様々なシーケンシャルなモデリングタスクにおいてトランスフォーマーベースのアーキテクチャが顕著に成功したにもかかわらず、隠れマルコフモデル(HMM)のような基本的なシーケンシャルなモデルを学ぶ能力はいまだに不明である。
本稿では,HMMの学習におけるトランスフォーマーの性能について,広範囲な実験を通して検討し,それをリカレントニューラルネットワーク(RNN)と比較する。
実験された全HMMモデルにおいて,トランスフォーマーはトレーニング速度とテスト精度の両方において連続的にRNNより劣っていることを示す。
さらには、Transformerが学習に苦労するHMMインスタンスもあるが、RNNはそれをうまく行うことができる。
さらに,HMMのタイプと複雑さに基づいて,トランスフォーマーの深さと,それが効果的に学習できるシーケンス長との関係を明らかにした。
HMMのモデリングにおける変換器の限界に対処するために、トレーニングフェーズにおいて$\textit{block CoT}$と呼ばれるChain-of-Thought(CoT)の変種が、変換器が評価誤差を低減し、トレーニング時間を増やすコストで長いシーケンスを学習するのに役立つことを実証する。
最後に,HMMを対数深度で近似する際の変圧器の表現性を理論的に証明し,実験結果を補完する。
関連論文リスト
- MoEUT: Mixture-of-Experts Universal Transformers [75.96744719516813]
ユニバーサルトランスフォーマー(UT)は、合成一般化の学習において標準トランスフォーマーよりも有利である。
層共有は、同じ次元を持つ非共有モデルと比較してパラメータ数を大幅に削減する。
従来の作業では、言語モデリングのようなパラメータ数の支配的なタスクと競合する共有層トランスフォーマー設計の提案に成功しなかった。
論文 参考訳(メタデータ) (2024-05-25T03:24:32Z) - TransformerFAM: Feedback attention is working memory [18.005034679674274]
本稿では,フィードバックループを利用した新しいトランスフォーマーアーキテクチャを提案する。
TransformerFAMは追加の重みを必要とせず、事前訓練されたモデルとのシームレスな統合を可能にする。
論文 参考訳(メタデータ) (2024-04-14T07:43:45Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - Mnemosyne: Learning to Train Transformers with Transformers [18.36543176998175]
Mnemosyneは最小限の計算資源を必要とする単純なメタトレーニング戦略を用いてトランスフォーマーのトレーニングを成功させることができることを示す。
Mnemosyneは、手作業で設計された一階述語に匹敵する複雑さを提供する。
論文 参考訳(メタデータ) (2023-02-02T14:40:28Z) - Learning Bounded Context-Free-Grammar via LSTM and the
Transformer:Difference and Explanations [51.77000472945441]
Long Short-Term Memory (LSTM) と Transformer は、自然言語処理タスクに使用される2つの一般的なニューラルネットワークアーキテクチャである。
実際には、トランスフォーマーモデルの方がLSTMよりも表現力が高いことがよく見られる。
本研究では,LSTMとTransformerの実践的差異について検討し,その潜在空間分解パターンに基づく説明を提案する。
論文 参考訳(メタデータ) (2021-12-16T19:56:44Z) - Language Modeling using LMUs: 10x Better Data Efficiency or Improved
Scaling Compared to Transformers [4.899818550820576]
シーケンス処理に先立って,レジェンダメモリ単位をベースとしたモデルを構築した。
我々の新しいアーキテクチャは10倍少ないトークンでトランスフォーマーと同じ精度を実現している。
論文 参考訳(メタデータ) (2021-10-05T23:20:37Z) - Scalable Transformers for Neural Machine Translation [86.4530299266897]
トランスフォーマーは、そのキャパシティとシーケンス生成の並列トレーニングのため、ニューラルネットワーク翻訳(NMT)で広く採用されている。
本稿では,異なるスケールのサブトランスフォーマーを自然に含み,パラメータを共有できる,スケーラブルなトランスフォーマーを提案する。
スケーラブルトランスフォーマーのトレーニングの難しさに対処する3段階のトレーニングスキームが提案されている。
論文 参考訳(メタデータ) (2021-06-04T04:04:10Z) - Toward Transformer-Based Object Detection [12.704056181392415]
ビジョントランスフォーマーは、共通の検出タスクヘッドによってバックボーンとして使用することができ、競合するCOCO結果を生成する。
vit-frcnnは、大きな事前訓練能力と高速微調整性能を含むトランスフォーマーに関連するいくつかの既知の特性を示す。
ViT-FRCNNは、オブジェクト検出などの複雑な視覚タスクの純粋なトランスフォーマーソリューションへの重要なステップストーンであると考えています。
論文 参考訳(メタデータ) (2020-12-17T22:33:14Z) - Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。
十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:25:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。