論文の概要: Transformers as Multi-task Learners: Decoupling Features in Hidden Markov Models
- arxiv url: http://arxiv.org/abs/2506.01919v1
- Date: Mon, 02 Jun 2025 17:39:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.675369
- Title: Transformers as Multi-task Learners: Decoupling Features in Hidden Markov Models
- Title(参考訳): マルチタスク学習者としてのトランスフォーマー:隠れマルコフモデルにおける特徴の分離
- Authors: Yifan Hao, Chenlu Ye, Chi Han, Tong Zhang,
- Abstract要約: トランスフォーマーベースのモデルは、幅広いタスクにわたってシーケンス学習において顕著な能力を示している。
マルチタスク一般化能力の基盤となるメカニズムを明らかにするために,トランスフォーマーの階層的挙動について検討する。
我々の明示的な構成は経験的観察と密接に一致し、様々なタスクにわたるシーケンス学習におけるトランスフォーマーの有効性と効率の理論的支援を提供する。
- 参考スコア(独自算出の注目度): 12.112842686827669
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer based models have shown remarkable capabilities in sequence learning across a wide range of tasks, often performing well on specific task by leveraging input-output examples. Despite their empirical success, a comprehensive theoretical understanding of this phenomenon remains limited. In this work, we investigate the layerwise behavior of Transformers to uncover the mechanisms underlying their multi-task generalization ability. Taking explorations on a typical sequence model, i.e, Hidden Markov Models, which are fundamental to many language tasks, we observe that: first, lower layers of Transformers focus on extracting feature representations, primarily influenced by neighboring tokens; second, on the upper layers, features become decoupled, exhibiting a high degree of time disentanglement. Building on these empirical insights, we provide theoretical analysis for the expressiveness power of Transformers. Our explicit constructions align closely with empirical observations, providing theoretical support for the Transformer's effectiveness and efficiency on sequence learning across diverse tasks.
- Abstract(参考訳): トランスフォーマーに基づくモデルは、広範囲のタスクにわたってシーケンス学習において顕著な能力を示しており、入力出力の例を利用して、しばしば特定のタスクでうまく機能する。
実証的な成功にもかかわらず、この現象に関する包括的な理論的理解は依然として限られている。
本研究では,トランスフォーマーの階層的挙動について検討し,マルチタスク一般化能力の基盤となるメカニズムを明らかにする。
典型的なシーケンスモデル、すなわち多くの言語タスクに基本となる隠れマルコフモデルについて検討した結果、トランスフォーマーの下位層は、主に隣接するトークンの影響を受け、特徴表現の抽出に重点を置いている。
これらの経験的洞察に基づいて,トランスフォーマーの表現力に関する理論的解析を行う。
我々の明示的な構成は経験的観察と密接に一致し、様々なタスクにわたるシーケンス学習におけるトランスフォーマーの有効性と効率の理論的支援を提供する。
関連論文リスト
- Layer-Wise Evolution of Representations in Fine-Tuned Transformers: Insights from Sparse AutoEncoders [0.0]
微調整事前学習トランスは、特定のタスクにおけるベースモデルの性能を向上させるための強力な技術である。
本稿では,微細チューニングの基礎となるメカニズム,特にBERT変換器について考察する。
論文 参考訳(メタデータ) (2025-02-23T21:29:50Z) - Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization [88.5582111768376]
本研究では, ソフトマックスを用いた自己保持層と, 勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。
この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。
論文 参考訳(メタデータ) (2024-09-28T13:24:11Z) - Skip-Layer Attention: Bridging Abstract and Detailed Dependencies in Transformers [56.264673865476986]
本稿では、Transformerモデルを強化するためのSLA(Skip-Layer Attention)を提案する。
SLAは、高レベルの抽象機能と低レベルの詳細の間の依存関係をキャプチャするモデルの能力を改善します。
我々の実装は、与えられたレイヤ内のクエリが、現在のレイヤと前のレイヤの両方のキーと値とやり取りできるようにすることで、Transformerの機能を拡張します。
論文 参考訳(メタデータ) (2024-06-17T07:24:38Z) - A Mechanistic Analysis of a Transformer Trained on a Symbolic Multi-Step Reasoning Task [14.921790126851008]
合成推論タスクで訓練された変圧器の包括的力学解析について述べる。
モデルがタスクの解決に使用する解釈可能なメカニズムのセットを特定し,相関的および因果的証拠を用いた結果の検証を行った。
論文 参考訳(メタデータ) (2024-02-19T08:04:25Z) - Understanding the Expressive Power and Mechanisms of Transformer for Sequence Modeling [10.246977481606427]
ドット積自己注意などのトランスフォーマーの異なる成分が表現力に影響を及ぼすメカニズムについて検討する。
本研究では,トランスフォーマーにおける臨界パラメータの役割を明らかにする。
論文 参考訳(メタデータ) (2024-02-01T11:43:13Z) - Stochastic Layers in Vision Transformers [85.38733795180497]
視覚変換器の完全な層を導入し,性能を著しく低下させることなく実現した。
この追加により、視覚機能の堅牢性が向上し、プライバシーが強化される。
私たちの機能は3つの異なるアプリケーション、すなわち、敵の堅牢性、ネットワークキャリブレーション、機能プライバシに使用しています。
論文 参考訳(メタデータ) (2021-12-30T16:07:59Z) - Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。
十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:25:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。