Fugu-MT 論文翻訳(概要): A phase transition between positional and semantic learning in a solvable model of dot-product attention

論文の概要: A phase transition between positional and semantic learning in a solvable model of dot-product attention

arxiv url: http://arxiv.org/abs/2402.03902v1
Date: Tue, 6 Feb 2024 11:13:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-07 15:19:21.674916
Title: A phase transition between positional and semantic learning in a solvable model of dot-product attention
Title（参考訳）: 点製品注意の可解モデルにおける位置学習と意味学習の相転移
Authors: Hugo Cui, Freya Behrens, Florent Krzakala, Lenka Zdeborov\'a
Abstract要約: 点積注意層が位置注意行列と意味注意行列をいかに学習するかを示す。アルゴリズム的なタスクに対して、同じ単純なアーキテクチャが、位置的または意味的なメカニズムを使ってどのように学習できるかを実験的に示す。
参考スコア（独自算出の注目度）: 20.83573496458023
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We investigate how a dot-product attention layer learns a positional attention matrix (with tokens attending to each other based on their respective positions) and a semantic attention matrix (with tokens attending to each other based on their meaning). For an algorithmic task, we experimentally show how the same simple architecture can learn to implement a solution using either the positional or semantic mechanism. On the theoretical side, we study the learning of a non-linear self-attention layer with trainable tied and low-rank query and key matrices. In the asymptotic limit of high-dimensional data and a comparably large number of training samples, we provide a closed-form characterization of the global minimum of the non-convex empirical loss landscape. We show that this minimum corresponds to either a positional or a semantic mechanism and evidence an emergent phase transition from the former to the latter with increasing sample complexity. Finally, we compare the dot-product attention layer to linear positional baseline, and show that it outperforms the latter using the semantic mechanism provided it has access to sufficient data.
Abstract（参考訳）: 点製品注目層が位置注意行列(それぞれの位置に基づいてトークンが互いに結合する)と意味注意行列(その意味に基づいて相互に結合するトークンを含む)をどのように学習するかを検討する。アルゴリズム的なタスクの場合、同じ単純なアーキテクチャが位置的あるいは意味的メカニズムを使ってどのようにソリューションを実装するかを実験的に示します。理論的には,学習可能な結合・低ランク問合せとキー行列を持つ非線形セルフアテンション層の学習について検討する。高次元データの漸近的限界と膨大なトレーニングサンプルについて,非凸経験的損失景観における大域的最小値の閉形式的特徴付けを述べる。この最小限は位置的または意味的なメカニズムのいずれかに対応し、サンプルの複雑さが増大する前者から後者への初期相転移を示す。最後に,dot-product attention層を線形位置ベースラインと比較し,十分なデータにアクセス可能な意味的メカニズムを用いて,後者よりも優れていることを示す。

関連論文リスト

Transformers Learn Faster with Semantic Focus [57.97235825738412]
学習性と一般化の観点からスパース変圧器について検討する。入力依存のスパースアテンションモデルは、標準アテンションモデルよりも早く収束し、より一般化しているように見える。
論文参考訳（メタデータ） (2025-06-17T01:19:28Z)
Adaptive Token Boundaries: Integrating Human Chunking Mechanisms into Multimodal LLMs [0.0]
本研究は,ヒトのクロスモーダルチャンキング機構とトークン表現手法の並列性について,系統的研究を行った。本稿では,適応的境界,階層的表現,認知科学の原理に基づくアライメント機構を取り入れた動的クロスモーダルトークン化フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-03T09:14:24Z)
Hallucination Detection in LLMs with Topological Divergence on Attention Graphs [64.74977204942199]
幻覚(Halucination)、すなわち、事実的に誤ったコンテンツを生成することは、大きな言語モデルにとって重要な課題である。本稿では,TOHA (Topology-based HAllucination detector) をRAG設定に導入する。
論文参考訳（メタデータ） (2025-04-14T10:06:27Z)
In-Context Linear Regression Demystified: Training Dynamics and Mechanistic Interpretability of Multi-Head Softmax Attention [52.159541540613915]
本研究では,マルチヘッド型ソフトマックスアテンションモデルを用いて,線形データを用いたコンテキスト内学習を行う方法について検討する。この結果から,学習内容の学習能力は,そのアーキテクチャと基礎となるデータ分布の集約的効果として,訓練されたトランスフォーマーから出現することが明らかとなった。
論文参考訳（メタデータ） (2025-03-17T02:00:49Z)
Will Pre-Training Ever End? A First Step Toward Next-Generation Foundation MLLMs via Self-Improving Systematic Cognition [86.21199607040147]
自己改善認知(Self-Improving cognition、SIcog)は、次世代基礎言語モデルを構築するための自己学習フレームワークである。ステップバイステップの視覚的理解手法であるChain-of-Descriptionを導入し、構造化連鎖推論(CoT)を統合し、深いマルチモーダル推論をサポートする。広範囲にわたる実験により、SIcogはマルチモーダル認知を著しく改善した次世代基盤MLLMを生産することが示された。
論文参考訳（メタデータ） (2025-03-16T00:25:13Z)
Learning Discrete Concepts in Latent Hierarchical Models [73.01229236386148]
自然の高次元データから学習する概念は、ヒューマンアライメントと解釈可能な機械学習モデルの構築の可能性を秘めている。我々は概念を階層的因果モデルを通して関連付けられた離散潜在因果変数として定式化する。我々は、理論的な主張を合成データ実験で裏付ける。
論文参考訳（メタデータ） (2024-06-01T18:01:03Z)
On Understanding Attention-Based In-Context Learning for Categorical Data [49.40350941996942]
我々は,アテンションブロックで構成されるネットワークを開発し,各ブロックに自己注意層を付加し,その後にクロスアテンション層と関連するスキップ接続を付加する。このモデルは、カテゴリー的観察を伴う文脈内推論のための多段階機能的GD推論を正確に行うことができる。
論文参考訳（メタデータ） (2024-05-27T15:03:21Z)
Connectivity Shapes Implicit Regularization in Matrix Factorization Models for Matrix Completion [2.8948274245812335]
行列完備化問題の解法として,行列分解の暗黙的正則化について検討する。我々は、観測データの接続が暗黙のバイアスにおいて重要な役割を果たすことを経験的に発見する。我々の研究は、行列分解モデルにおけるデータ接続、トレーニングダイナミクス、暗黙の正規化の間の複雑な相互作用を明らかにする。
論文参考訳（メタデータ） (2024-05-22T15:12:14Z)
Linear Noise Approximation Assisted Bayesian Inference on Mechanistic Model of Partially Observed Stochastic Reaction Network [2.325005809983534]
本稿では、部分的に観察された酵素反応ネットワーク(SRN)に対する効率的なベイズ推論手法を開発する。線形雑音近似(LNA)メタモデルを提案する。マルコフ・チェイン・モンテカルロの収束を高速化するために、導出確率の勾配を利用して効率的な後方サンプリング手法を開発した。
論文参考訳（メタデータ） (2024-05-05T01:54:21Z)
On the Optimization and Generalization of Multi-head Attention [28.33164313549433]
マルチアテンションヘッドを用いた場合の潜在的な最適化と一般化の利点について検討する。単層多層自己アテンションモデルの勾配差学習における収束と一般化の保証を導出する。
論文参考訳（メタデータ） (2023-10-19T12:18:24Z)
Unsupervised and supervised learning of interacting topological phases from single-particle correlation functions [0.0]
本研究では、教師なしおよび教師なしの機械学習技術が、解決可能なモデルのデータに基づいて訓練された場合、正確には解決不可能なモデルのフェーズを予測することができることを示す。特に,非相互作用量子ワイヤの単一粒子相関関数を用いたトレーニングセットを用いる。非相互作用モデルのデータに基づいてトレーニングされた主成分分析と畳み込みニューラルネットワークの両方が、相互作用モデルの位相位相を高い精度で識別できることを示す。
論文参考訳（メタデータ） (2022-02-18T16:02:29Z)
Scalable Intervention Target Estimation in Linear Models [52.60799340056917]
因果構造学習への現在のアプローチは、既知の介入目標を扱うか、仮説テストを使用して未知の介入目標を発見する。本稿では、全ての介入対象を一貫して識別するスケーラブルで効率的なアルゴリズムを提案する。提案アルゴリズムは、与えられた観測マルコフ同値クラスを介入マルコフ同値クラスに更新することも可能である。
論文参考訳（メタデータ） (2021-11-15T03:16:56Z)
Learning Neural Causal Models with Active Interventions [83.44636110899742]
本稿では,データ生成プロセスの根底にある因果構造を素早く識別する能動的介入ターゲット機構を提案する。本手法は,ランダムな介入ターゲティングと比較して,要求される対話回数を大幅に削減する。シミュレーションデータから実世界のデータまで,複数のベンチマークにおいて優れた性能を示す。
論文参考訳（メタデータ） (2021-09-06T13:10:37Z)
Discovering Latent Causal Variables via Mechanism Sparsity: A New Principle for Nonlinear ICA [81.4991350761909]
ICA(Independent component analysis)は、この目的を定式化し、実用的な応用のための推定手順を提供する手法の集合を指す。潜伏変数は、潜伏機構をスパースに正則化すれば、置換まで復元可能であることを示す。
論文参考訳（メタデータ） (2021-07-21T14:22:14Z)
On the Dynamics of Training Attention Models [30.85940880569692]
勾配勾配勾配を用いた簡単な注意に基づく分類モデルの訓練の力学について検討する。我々は、注意出力が線形分類器によって分類される場合、訓練は識別語への参加に収束しなければならないことを証明した。
論文参考訳（メタデータ） (2020-11-19T18:55:30Z)
Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文参考訳（メタデータ） (2020-11-18T18:52:08Z)
Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。分散による離散乗法雑音のパラメータによく現れることを示す。最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文参考訳（メタデータ） (2020-06-11T09:58:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。