Fugu-MT 論文翻訳(概要): A phase transition between positional and semantic learning in a solvable model of dot-product attention

論文の概要: A phase transition between positional and semantic learning in a solvable model of dot-product attention

arxiv url: http://arxiv.org/abs/2402.03902v2
Date: Tue, 15 Oct 2024 19:54:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:30.622465
Title: A phase transition between positional and semantic learning in a solvable model of dot-product attention
Title（参考訳）: ドット積注意の解答モデルにおける位置学習と意味学習の相転移
Authors: Hugo Cui, Freya Behrens, Florent Krzakala, Lenka Zdeborová,
Abstract要約: 学習可能な,低次元の問合せとキーデータを備えた非次元自己注意層として,高次モデルドット積注意法について検討した。位置注意機構(それぞれの位置に基づくトークンを含む)と意味注意機構(それぞれの意味に基づいて互いに結びついているトークンを含む)と、サンプルの複雑さが増大する前者から後者への遷移が示される。
参考スコア（独自算出の注目度）: 30.96921029675713
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Many empirical studies have provided evidence for the emergence of algorithmic mechanisms (abilities) in the learning of language models, that lead to qualitative improvements of the model capabilities. Yet, a theoretical characterization of how such mechanisms emerge remains elusive. In this paper, we take a step in this direction by providing a tight theoretical analysis of the emergence of semantic attention in a solvable model of dot-product attention. More precisely, we consider a non-linear self-attention layer with trainable tied and low-rank query and key matrices. In the asymptotic limit of high-dimensional data and a comparably large number of training samples we provide a tight closed-form characterization of the global minimum of the non-convex empirical loss landscape. We show that this minimum corresponds to either a positional attention mechanism (with tokens attending to each other based on their respective positions) or a semantic attention mechanism (with tokens attending to each other based on their meaning), and evidence an emergent phase transition from the former to the latter with increasing sample complexity. Finally, we compare the dot-product attention layer to a linear positional baseline, and show that it outperforms the latter using the semantic mechanism provided it has access to sufficient data.
Abstract（参考訳）: 多くの実証的研究は、言語モデルの学習におけるアルゴリズム機構(能力)の出現を証明し、モデルの能力の質的な改善につながった。しかし、そのようなメカニズムがどのように出現するかという理論的特徴はいまだ解明されていない。本稿では,ドット積注意の解答可能なモデルにおいて,意味的注意の出現に関する厳密な理論的解析を行うことにより,この方向への一歩を踏み出す。より正確には、トレーニング可能な結び付きクエリと低ランククエリとキー行列を備えた非線形自己アテンション層を考える。高次元データの漸近限界と比較可能な数のトレーニングサンプルでは、非凸な経験的損失景観の大域的最小値の厳密な閉形式的特徴を与える。この最小限は、位置的注意機構(それぞれの位置に基づいてトークンが参加する)と意味的注意機構(それぞれの意味に基づいてトークンが参加する)のいずれかに対応しており、サンプルの複雑さが増すにつれて、前者から後者への急激な位相遷移が証拠となる。最後に,ドット積アテンション層を線形位置ベースラインと比較し,十分なデータにアクセスできた場合のセマンティックメカニズムを用いて,後者よりも優れていることを示す。

関連論文リスト

Transformers Learn Faster with Semantic Focus [57.97235825738412]
学習性と一般化の観点からスパース変圧器について検討する。入力依存のスパースアテンションモデルは、標準アテンションモデルよりも早く収束し、より一般化しているように見える。
論文参考訳（メタデータ） (2025-06-17T01:19:28Z)
Adaptive Token Boundaries: Integrating Human Chunking Mechanisms into Multimodal LLMs [0.0]
本研究は,ヒトのクロスモーダルチャンキング機構とトークン表現手法の並列性について,系統的研究を行った。本稿では,適応的境界,階層的表現,認知科学の原理に基づくアライメント機構を取り入れた動的クロスモーダルトークン化フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-03T09:14:24Z)
Hallucination Detection in LLMs with Topological Divergence on Attention Graphs [64.74977204942199]
幻覚(Halucination)、すなわち、事実的に誤ったコンテンツを生成することは、大きな言語モデルにとって重要な課題である。本稿では,TOHA (Topology-based HAllucination detector) をRAG設定に導入する。
論文参考訳（メタデータ） (2025-04-14T10:06:27Z)
In-Context Linear Regression Demystified: Training Dynamics and Mechanistic Interpretability of Multi-Head Softmax Attention [52.159541540613915]
本研究では,マルチヘッド型ソフトマックスアテンションモデルを用いて,線形データを用いたコンテキスト内学習を行う方法について検討する。この結果から,学習内容の学習能力は,そのアーキテクチャと基礎となるデータ分布の集約的効果として,訓練されたトランスフォーマーから出現することが明らかとなった。
論文参考訳（メタデータ） (2025-03-17T02:00:49Z)
Will Pre-Training Ever End? A First Step Toward Next-Generation Foundation MLLMs via Self-Improving Systematic Cognition [86.21199607040147]
自己改善認知(Self-Improving cognition、SIcog)は、次世代基礎言語モデルを構築するための自己学習フレームワークである。ステップバイステップの視覚的理解手法であるChain-of-Descriptionを導入し、構造化連鎖推論(CoT)を統合し、深いマルチモーダル推論をサポートする。広範囲にわたる実験により、SIcogはマルチモーダル認知を著しく改善した次世代基盤MLLMを生産することが示された。
論文参考訳（メタデータ） (2025-03-16T00:25:13Z)
Learning Discrete Concepts in Latent Hierarchical Models [73.01229236386148]
自然の高次元データから学習する概念は、ヒューマンアライメントと解釈可能な機械学習モデルの構築の可能性を秘めている。我々は概念を階層的因果モデルを通して関連付けられた離散潜在因果変数として定式化する。我々は、理論的な主張を合成データ実験で裏付ける。
論文参考訳（メタデータ） (2024-06-01T18:01:03Z)
On Understanding Attention-Based In-Context Learning for Categorical Data [49.40350941996942]
我々は,アテンションブロックで構成されるネットワークを開発し,各ブロックに自己注意層を付加し,その後にクロスアテンション層と関連するスキップ接続を付加する。このモデルは、カテゴリー的観察を伴う文脈内推論のための多段階機能的GD推論を正確に行うことができる。
論文参考訳（メタデータ） (2024-05-27T15:03:21Z)
Connectivity Shapes Implicit Regularization in Matrix Factorization Models for Matrix Completion [2.8948274245812335]
行列完備化問題の解法として,行列分解の暗黙的正則化について検討する。我々は、観測データの接続が暗黙のバイアスにおいて重要な役割を果たすことを経験的に発見する。我々の研究は、行列分解モデルにおけるデータ接続、トレーニングダイナミクス、暗黙の正規化の間の複雑な相互作用を明らかにする。
論文参考訳（メタデータ） (2024-05-22T15:12:14Z)
Linear Noise Approximation Assisted Bayesian Inference on Mechanistic Model of Partially Observed Stochastic Reaction Network [2.325005809983534]
本稿では、部分的に観察された酵素反応ネットワーク(SRN)に対する効率的なベイズ推論手法を開発する。線形雑音近似(LNA)メタモデルを提案する。マルコフ・チェイン・モンテカルロの収束を高速化するために、導出確率の勾配を利用して効率的な後方サンプリング手法を開発した。
論文参考訳（メタデータ） (2024-05-05T01:54:21Z)
On the Optimization and Generalization of Multi-head Attention [28.33164313549433]
マルチアテンションヘッドを用いた場合の潜在的な最適化と一般化の利点について検討する。単層多層自己アテンションモデルの勾配差学習における収束と一般化の保証を導出する。
論文参考訳（メタデータ） (2023-10-19T12:18:24Z)
Unsupervised and supervised learning of interacting topological phases from single-particle correlation functions [0.0]
本研究では、教師なしおよび教師なしの機械学習技術が、解決可能なモデルのデータに基づいて訓練された場合、正確には解決不可能なモデルのフェーズを予測することができることを示す。特に,非相互作用量子ワイヤの単一粒子相関関数を用いたトレーニングセットを用いる。非相互作用モデルのデータに基づいてトレーニングされた主成分分析と畳み込みニューラルネットワークの両方が、相互作用モデルの位相位相を高い精度で識別できることを示す。
論文参考訳（メタデータ） (2022-02-18T16:02:29Z)
Scalable Intervention Target Estimation in Linear Models [52.60799340056917]
因果構造学習への現在のアプローチは、既知の介入目標を扱うか、仮説テストを使用して未知の介入目標を発見する。本稿では、全ての介入対象を一貫して識別するスケーラブルで効率的なアルゴリズムを提案する。提案アルゴリズムは、与えられた観測マルコフ同値クラスを介入マルコフ同値クラスに更新することも可能である。
論文参考訳（メタデータ） (2021-11-15T03:16:56Z)
Learning Neural Causal Models with Active Interventions [83.44636110899742]
本稿では,データ生成プロセスの根底にある因果構造を素早く識別する能動的介入ターゲット機構を提案する。本手法は,ランダムな介入ターゲティングと比較して,要求される対話回数を大幅に削減する。シミュレーションデータから実世界のデータまで,複数のベンチマークにおいて優れた性能を示す。
論文参考訳（メタデータ） (2021-09-06T13:10:37Z)
Discovering Latent Causal Variables via Mechanism Sparsity: A New Principle for Nonlinear ICA [81.4991350761909]
ICA(Independent component analysis)は、この目的を定式化し、実用的な応用のための推定手順を提供する手法の集合を指す。潜伏変数は、潜伏機構をスパースに正則化すれば、置換まで復元可能であることを示す。
論文参考訳（メタデータ） (2021-07-21T14:22:14Z)
On the Dynamics of Training Attention Models [30.85940880569692]
勾配勾配勾配を用いた簡単な注意に基づく分類モデルの訓練の力学について検討する。我々は、注意出力が線形分類器によって分類される場合、訓練は識別語への参加に収束しなければならないことを証明した。
論文参考訳（メタデータ） (2020-11-19T18:55:30Z)
Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文参考訳（メタデータ） (2020-11-18T18:52:08Z)
Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。分散による離散乗法雑音のパラメータによく現れることを示す。最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文参考訳（メタデータ） (2020-06-11T09:58:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。