Fugu-MT 論文翻訳(概要): Beyond Position: the emergence of wavelet-like properties in Transformers

論文の概要: Beyond Position: the emergence of wavelet-like properties in Transformers

arxiv url: http://arxiv.org/abs/2410.18067v3
Date: Tue, 21 Jan 2025 17:50:47 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-22 17:18:20.523829
Title: Beyond Position: the emergence of wavelet-like properties in Transformers
Title（参考訳）: Beyond Position: Transformerにおけるウェーブレットライクな特性の出現
Authors: Valeria Ruscio, Fabrizio Silvestri,
Abstract要約: 本稿では, ロータリー位置埋め込み(RoPE)の理論的限界を効果的に補償する頑健なウェーブレット様特性をトランスフォーマーモデルがいかに発展させるかを検討する。本研究では,ウェーブレット変換に類似したマルチレゾリューション処理を実装するために,注目ヘッドが自然に進化することを示す。
参考スコア（独自算出の注目度）: 7.3645788720974465
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper studies how transformer models develop robust wavelet-like properties that effectively compensate for the theoretical limitations of Rotary Position Embeddings (RoPE), providing insights into how these networks process sequential information across different scales. Through theoretical analysis and empirical validation across models ranging from 1B to 12B parameters, we show that attention heads naturally evolve to implement multi-resolution processing analogous to wavelet transforms. Our analysis establishes that attention heads consistently organize into complementary frequency bands with systematic power distribution patterns, and these wavelet-like characteristics become more pronounced in larger models. We provide mathematical analysis showing how these properties align with optimal solutions to the fundamental uncertainty principle between positional precision and frequency resolution. Our findings suggest that the effectiveness of modern transformer architectures stems significantly from their development of optimal multi-resolution decompositions that naturally address the theoretical constraints of position encoding.
Abstract（参考訳）: 本稿では,ロタリー位置埋め込み(RoPE)の理論的制約を効果的に補うために,トランスフォーマーモデルが頑健なウェーブレットライクな特性をいかに生み出すかを検討する。 1B から 12B のパラメータを含むモデル間の理論的解析と経験的検証により、注目ヘッドが自然に進化し、ウェーブレット変換に類似したマルチレゾリューション処理を実装することを示す。分析により,アテンションヘッドは系統的な配電パターンを持つ相補的な周波数帯域に一貫して構成され,これらのウェーブレットのような特性はより大きなモデルでより顕著になることが示された。本稿では,これらの特性が位置精度と周波数分解能の基本的な不確実性原理に対する最適解とどのように一致しているかを数学的に解析する。この結果から, 現代のトランスフォーマーアーキテクチャの有効性は, 位置符号化の理論的制約に自然に対処する最適多分解分解法の開発に大きく影響することが示唆された。

関連論文リスト

Revisiting LRP: Positional Attribution as the Missing Ingredient for Transformer Explainability [53.21677928601684]
階層的関連性伝播は、ディープラーニングにおける説明可能性に対する最も有望なアプローチの1つである。そこで我々は,様々な位置符号化手法にまたがる属性の伝播を目的とした,理論的なLRP規則を提案する。本手法は,視力とNLP説明可能性の両面において,最先端の課題を著しく上回っている。
論文参考訳（メタデータ） (2025-06-02T18:07:55Z)
Model Hemorrhage and the Robustness Limits of Large Language Models [119.46442117681147]
大規模言語モデル(LLM)は、自然言語処理タスク全体で強力なパフォーマンスを示すが、デプロイメント用に修正された場合、大幅なパフォーマンス低下を経験する。この現象をモデル出血(パラメータ変更とアーキテクチャ変更によるパフォーマンス低下)と定義する。
論文参考訳（メタデータ） (2025-03-31T10:16:03Z)
Neural ODE Transformers: Analyzing Internal Dynamics and Adaptive Fine-tuning [30.781578037476347]
高度にフレキシブルな非自律型ニューラル常微分方程式(ODE)を用いたトランスフォーマーアーキテクチャのモデリング手法を提案する。提案モデルでは,ニューラルネットワークによる注目度とフィードフォワードブロックの重みをパラメータ化し,これらの重みを連続層インデックスの関数として表現する。我々のニューラルODE変換器は、さまざまな構成やデータセットにわたるバニラ変換器に匹敵するパフォーマンスを示す。
論文参考訳（メタデータ） (2025-03-03T09:12:14Z)
OT-Transformer: A Continuous-time Transformer Architecture with Optimal Transport Regularization [1.7180235064112577]
制御方程式が変圧器ブロックによってパラメータ化される力学系を考える。最適輸送理論を利用してトレーニング問題を正規化し、トレーニングの安定性を高め、結果として得られるモデルの一般化を改善する。
論文参考訳（メタデータ） (2025-01-30T22:52:40Z)
Dynamics of Transient Structure in In-Context Linear Regression Transformers [0.5242869847419834]
中間タスクの多様性を持つコンテキスト内線形回帰タスクでトランスフォーマーを訓練する場合、トレーニング分布のタスクに特化する前にリッジ回帰のように振る舞うことを示す。一般解から特殊解へのこの遷移は、結合軌道主成分分析によって明らかにされる。局所学習係数によって定義される変圧器のモデル複雑性を測定することにより、この説明を実証的に検証する。
論文参考訳（メタデータ） (2025-01-29T16:32:14Z)
SPARTAN: A Sparse Transformer Learning Local Causation [63.29645501232935]
因果構造は、環境の変化に柔軟に適応する世界モデルにおいて中心的な役割を果たす。本研究では,SPARse TrANsformer World Model(SPARTAN)を提案する。オブジェクト指向トークン間の注意パターンに空間規則を適用することで、SPARTANは、将来のオブジェクト状態を正確に予測するスパース局所因果モデルを特定する。
論文参考訳（メタデータ） (2024-11-11T11:42:48Z)
Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文参考訳（メタデータ） (2024-10-22T21:30:01Z)
Tight Stability, Convergence, and Robustness Bounds for Predictive Coding Networks [60.3634789164648]
予測符号化(PC)のようなエネルギーベースの学習アルゴリズムは、機械学習コミュニティにおいて大きな注目を集めている。動的システム理論のレンズを用いて,PCの安定性,堅牢性,収束性を厳密に解析する。
論文参考訳（メタデータ） (2024-10-07T02:57:26Z)
Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization [88.5582111768376]
本研究では, ソフトマックスを用いた自己保持層と, 勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。
論文参考訳（メタデータ） (2024-09-28T13:24:11Z)
A Unified Framework for Interpretable Transformers Using PDEs and Information Theory [3.4039202831583903]
本稿では、部分微分方程式(PDE)、ニューラルインフォメーションフロー理論、インフォメーション・ボトルネック理論を統合することでトランスフォーマーアーキテクチャを理解するための新しい統合理論フレームワークを提案する。我々は、拡散、自己注意、非線形残留成分を含む連続的なPDEプロセスとしてトランスフォーマー情報力学をモデル化する。画像およびテキストのモーダル性に関する包括的実験により、PDEモデルはトランスフォーマーの挙動の重要な側面を効果的に捉え、トランスフォーマーの注意分布と高い類似性(コサイン類似度 > 0.98)を達成することを示した。
論文参考訳（メタデータ） (2024-08-18T16:16:57Z)
Dynamical Mean-Field Theory of Self-Attention Neural Networks [0.0]
トランスフォーマーベースのモデルは、様々な領域で例外的な性能を示している。動作方法や期待されるダイナミクスについてはほとんど分かっていない。非平衡状態における非対称ホップフィールドネットワークの研究に手法を用いる。
論文参考訳（メタデータ） (2024-06-11T13:29:34Z)
Rethinking Transformers in Solving POMDPs [47.14499685668683]
本稿では、部分的に観測可能なマルコフ決定プロセス(POMDP)における一般的なアーキテクチャ、すなわちトランスフォーマーの有効性を精査する。 Transformersがモデル化に苦労する正規言語は、POMDPに再現可能である。このことはトランスフォーマーがPOMDP固有の帰納バイアスを学習する上で大きな課題となる。
論文参考訳（メタデータ） (2024-05-27T17:02:35Z)
Function Approximation for Reinforcement Learning Controller for Energy from Spread Waves [69.9104427437916]
マルチジェネレータ・ウェーブ・エナジー・コンバータ(WEC)は、スプレッド・ウェーブと呼ばれる異なる方向から来る複数の同時波を処理しなければならない。これらの複雑な装置は、エネルギー捕獲効率、維持を制限する構造的ストレスの低減、高波に対する積極的な保護という複数の目的を持つコントローラを必要とする。本稿では,システム力学のシーケンシャルな性質をモデル化する上で,ポリシーと批判ネットワークの異なる機能近似について検討する。
論文参考訳（メタデータ） (2024-04-17T02:04:10Z)
The Impact of LoRA on the Emergence of Clusters in Transformers [2.7309692684728617]
我々は,ciptsander2022sinkformers,geshkovski2023,geshkovski2023によって開発されたトランスフォーマーのフレームワークを用いて,トークンクラスタの構造的ダイナミクスに,注目パラメータや初期トークン値の変動がどう影響するかを数学的に検討する。この研究は、LoRAアルゴリズム citehu2021lora,peft への実践的応用を通じて微調整分野に寄与し、LoRA強化トランスフォーマーモデルの振る舞いの理解を深める。
論文参考訳（メタデータ） (2024-02-23T16:26:01Z)
Understanding the Expressive Power and Mechanisms of Transformer for Sequence Modeling [10.246977481606427]
ドット積自己注意などのトランスフォーマーの異なる成分が表現力に影響を及ぼすメカニズムについて検討する。本研究では,トランスフォーマーにおける臨界パラメータの役割を明らかにする。
論文参考訳（メタデータ） (2024-02-01T11:43:13Z)
Unraveling the Temporal Dynamics of the Unet in Diffusion Models [33.326244121918634]
拡散モデルはガウスノイズをトレーニングデータに導入し、元のデータを反復的に再構築する。この反復プロセスの中心は単一のUnetであり、生成を容易にするために時間ステップを越えて適応する。近年の研究では, この生成過程における組成および脱臭相の存在が明らかにされている。
論文参考訳（メタデータ） (2023-12-17T04:40:33Z)
On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文参考訳（メタデータ） (2023-11-02T20:03:05Z)
Leveraging Low-Rank and Sparse Recurrent Connectivity for Robust Closed-Loop Control [63.310780486820796]
繰り返し接続のパラメータ化が閉ループ設定のロバスト性にどのように影響するかを示す。パラメータが少ないクローズドフォーム連続時間ニューラルネットワーク(CfCs)は、フルランクで完全に接続されたニューラルネットワークよりも優れています。
論文参考訳（メタデータ） (2023-10-05T21:44:18Z)
ASR: Attention-alike Structural Re-parameterization [53.019657810468026]
本稿では,アテンション機構の有効性を享受しながら,与えられたネットワークに対してSRPを実現するための,シンプルなアテンション型構造的再パラメータ化(ASR)を提案する。本稿では,統計的観点から広範囲にわたる実験を行い,Stripe Observationという興味深い現象を発見し,チャネル注意値が訓練中に一定のベクトルに素早く接近することを明らかにする。
論文参考訳（メタデータ） (2023-04-13T08:52:34Z)
Variational waveguide QED simulators [58.720142291102135]
導波管QEDシミュレータは1次元フォトニックバンドギャップ材料と相互作用する量子エミッタによって構成される。ここでは、これらの相互作用がより効率的な変分量子アルゴリズムを開発するためのリソースとなることを実証する。
論文参考訳（メタデータ） (2023-02-03T18:55:08Z)
Convexifying Transformers: Improving optimization and understanding of transformer networks [56.69983975369641]
本研究では,注目/変圧器ネットワークのトレーニング問題について検討し,新しい凸解析手法を提案する。まず,自己注意機構の代替として凸を導入し,変圧器ネットワークの正規化学習問題を再構成する。凸解析の副産物として,トークン間の空間性を促進する暗黙の規則化機構を明らかにする。
論文参考訳（メタデータ） (2022-11-20T18:17:47Z)
Deep Reinforcement Learning for IRS Phase Shift Design in Spatiotemporally Correlated Environments [93.30657979626858]
本稿では,チャネル相関と目的地動きを考慮したディープアクター批判アルゴリズムを提案する。チャネルが時間的に相関している場合、コンバージェンスを抑制する方法において、関数近似を伴う状態表現にSNRを組み込むことが示される。
論文参考訳（メタデータ） (2022-11-02T22:07:36Z)
Transformer Meets Boundary Value Inverse Problems [4.165221477234755]
変圧器を用いた深部直接サンプリング法は境界値逆問題のクラスを解くために提案される。慎重に設計されたデータと再構成された画像の間に学習した逆演算子を評価することにより、リアルタイムな再構成を実現する。
論文参考訳（メタデータ） (2022-09-29T17:45:25Z)
XAI for Transformers: Better Explanations through Conservative Propagation [60.67748036747221]
変換器の勾配は局所的にのみ関数を反映しており、入力特徴の予測への寄与を確実に識別できないことを示す。我々の提案は、よく確立されたLPP法のトランスフォーマーへの適切な拡張と見なすことができる。
論文参考訳（メタデータ） (2022-02-15T10:47:11Z)
Towards Robust and Adaptive Motion Forecasting: A Causal Representation Perspective [72.55093886515824]
本稿では,3つの潜伏変数群からなる動的過程として,運動予測の因果的形式化を導入する。我々は、因果グラフを近似するために、不変なメカニズムやスタイルの共創者の表現を分解するモジュラーアーキテクチャを考案する。合成および実データを用いた実験結果から,提案した3つの成分は,学習した動き表現の頑健性と再利用性を大幅に向上することが示された。
論文参考訳（メタデータ） (2021-11-29T18:59:09Z)
Conformer-based End-to-end Speech Recognition With Rotary Position Embedding [11.428057887454008]
畳み込み強化変圧器(コンフォーマ)に回転位置埋め込み(RoPE)を導入する。 RoPEは、絶対位置情報を回転行列によって入力シーケンスにエンコードし、自然に明示的な相対位置情報を自己保持モジュールに組み込む。提案モデルでは,LbriSpeechコーパスの試験クリーンおよびテスト他のセットに対して,コンバータの単語誤り率を8.70%,コンバータの7.27%削減する。
論文参考訳（メタデータ） (2021-07-13T08:07:22Z)
Feedback-induced instabilities and dynamics in the Jaynes-Cummings model [62.997667081978825]
時間遅延コヒーレントフィードバックを受けるJaynes-Cummingsモデルのコヒーレンスと定常状態特性について検討する。導入されたフィードバックは、システムの動的応答と定常量子特性を質的に修正する。
論文参考訳（メタデータ） (2020-06-20T10:07:01Z)
Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。分散による離散乗法雑音のパラメータによく現れることを示す。最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文参考訳（メタデータ） (2020-06-11T09:58:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。