Fugu-MT 論文翻訳(概要): Transformers as Multi-task Learners: Decoupling Features in Hidden Markov Models

論文の概要: Transformers as Multi-task Learners: Decoupling Features in Hidden Markov Models

arxiv url: http://arxiv.org/abs/2506.01919v1
Date: Mon, 02 Jun 2025 17:39:31 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-04 21:47:34.675369
Title: Transformers as Multi-task Learners: Decoupling Features in Hidden Markov Models
Title（参考訳）: マルチタスク学習者としてのトランスフォーマー:隠れマルコフモデルにおける特徴の分離
Authors: Yifan Hao, Chenlu Ye, Chi Han, Tong Zhang,
Abstract要約: トランスフォーマーベースのモデルは、幅広いタスクにわたってシーケンス学習において顕著な能力を示している。マルチタスク一般化能力の基盤となるメカニズムを明らかにするために,トランスフォーマーの階層的挙動について検討する。我々の明示的な構成は経験的観察と密接に一致し、様々なタスクにわたるシーケンス学習におけるトランスフォーマーの有効性と効率の理論的支援を提供する。
参考スコア（独自算出の注目度）: 12.112842686827669
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Transformer based models have shown remarkable capabilities in sequence learning across a wide range of tasks, often performing well on specific task by leveraging input-output examples. Despite their empirical success, a comprehensive theoretical understanding of this phenomenon remains limited. In this work, we investigate the layerwise behavior of Transformers to uncover the mechanisms underlying their multi-task generalization ability. Taking explorations on a typical sequence model, i.e, Hidden Markov Models, which are fundamental to many language tasks, we observe that: first, lower layers of Transformers focus on extracting feature representations, primarily influenced by neighboring tokens; second, on the upper layers, features become decoupled, exhibiting a high degree of time disentanglement. Building on these empirical insights, we provide theoretical analysis for the expressiveness power of Transformers. Our explicit constructions align closely with empirical observations, providing theoretical support for the Transformer's effectiveness and efficiency on sequence learning across diverse tasks.
Abstract（参考訳）: トランスフォーマーに基づくモデルは、広範囲のタスクにわたってシーケンス学習において顕著な能力を示しており、入力出力の例を利用して、しばしば特定のタスクでうまく機能する。実証的な成功にもかかわらず、この現象に関する包括的な理論的理解は依然として限られている。本研究では,トランスフォーマーの階層的挙動について検討し,マルチタスク一般化能力の基盤となるメカニズムを明らかにする。典型的なシーケンスモデル、すなわち多くの言語タスクに基本となる隠れマルコフモデルについて検討した結果、トランスフォーマーの下位層は、主に隣接するトークンの影響を受け、特徴表現の抽出に重点を置いている。これらの経験的洞察に基づいて,トランスフォーマーの表現力に関する理論的解析を行う。我々の明示的な構成は経験的観察と密接に一致し、様々なタスクにわたるシーケンス学習におけるトランスフォーマーの有効性と効率の理論的支援を提供する。

関連論文リスト

Layer-Wise Evolution of Representations in Fine-Tuned Transformers: Insights from Sparse AutoEncoders [0.0]
微調整事前学習トランスは、特定のタスクにおけるベースモデルの性能を向上させるための強力な技術である。本稿では,微細チューニングの基礎となるメカニズム,特にBERT変換器について考察する。
論文参考訳（メタデータ） (2025-02-23T21:29:50Z)
Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文参考訳（メタデータ） (2024-10-22T21:30:01Z)
Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization [88.5582111768376]
本研究では, ソフトマックスを用いた自己保持層と, 勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。
論文参考訳（メタデータ） (2024-09-28T13:24:11Z)
Strengthening Structural Inductive Biases by Pre-training to Perform Syntactic Transformations [75.14793516745374]
中間学習によりトランスフォーマーの構造的帰納バイアスを強化することを提案する。実験の結果,チャンキングなどの構文的タスクのわずかな学習に有効であることが確認された。分析の結果,中間的事前学習は,どのトークンにシナティクス変換を適用する必要があるかを追尾する注意を喚起することが明らかとなった。
論文参考訳（メタデータ） (2024-07-05T14:29:44Z)
Skip-Layer Attention: Bridging Abstract and Detailed Dependencies in Transformers [56.264673865476986]
本稿では、Transformerモデルを強化するためのSLA(Skip-Layer Attention)を提案する。 SLAは、高レベルの抽象機能と低レベルの詳細の間の依存関係をキャプチャするモデルの能力を改善します。我々の実装は、与えられたレイヤ内のクエリが、現在のレイヤと前のレイヤの両方のキーと値とやり取りできるようにすることで、Transformerの機能を拡張します。
論文参考訳（メタデータ） (2024-06-17T07:24:38Z)
A Mechanistic Analysis of a Transformer Trained on a Symbolic Multi-Step Reasoning Task [14.921790126851008]
合成推論タスクで訓練された変圧器の包括的力学解析について述べる。モデルがタスクの解決に使用する解釈可能なメカニズムのセットを特定し,相関的および因果的証拠を用いた結果の検証を行った。
論文参考訳（メタデータ） (2024-02-19T08:04:25Z)
Understanding the Expressive Power and Mechanisms of Transformer for Sequence Modeling [10.246977481606427]
ドット積自己注意などのトランスフォーマーの異なる成分が表現力に影響を及ぼすメカニズムについて検討する。本研究では,トランスフォーマーにおける臨界パラメータの役割を明らかにする。
論文参考訳（メタデータ） (2024-02-01T11:43:13Z)
Systematic Generalization and Emergent Structures in Transformers Trained on Structured Tasks [6.525090891505941]
我々は、因果変換器が、コピー、ソート、階層的な構成を含む一連のアルゴリズムタスクを実行する方法を示す。両層変換器は多層問題に対する一般化可能な解法を学習し,系統的タスク分解の兆候を現示する。これらの結果は、トランスフォーマーモデルが複雑な決定を再利用可能なマルチレベルポリシーに分解する方法について、重要な洞察を与えてくれる。
論文参考訳（メタデータ） (2022-10-02T00:46:36Z)
Stochastic Layers in Vision Transformers [85.38733795180497]
視覚変換器の完全な層を導入し,性能を著しく低下させることなく実現した。この追加により、視覚機能の堅牢性が向上し、プライバシーが強化される。私たちの機能は3つの異なるアプリケーション、すなわち、敵の堅牢性、ネットワークキャリブレーション、機能プライバシに使用しています。
論文参考訳（メタデータ） (2021-12-30T16:07:59Z)
Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文参考訳（メタデータ） (2020-05-20T17:25:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。