Fugu-MT 論文翻訳(概要): Transformer Block Coupling and its Correlation with Generalization in LLMs

論文の概要: Transformer Block Coupling and its Correlation with Generalization in LLMs

arxiv url: http://arxiv.org/abs/2407.07810v2
Date: Mon, 14 Oct 2024 04:29:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-08 22:40:08.299481
Title: Transformer Block Coupling and its Correlation with Generalization in LLMs
Title（参考訳）: LLMにおける変圧器ブロック結合と一般化との関係
Authors: Murdock Aubry, Haoming Meng, Anton Sugolov, Vardan Papyan,
Abstract要約: 大規模言語モデル(LLM)は自然言語処理において大きな進歩を遂げている。変換器ブロックを通過する個々のトークンの軌跡を辿り、ジャコビアン行列を通してこれらの軌跡に沿って系を線形化する。トークンと深さをまたいだ頂点特異ベクトルのカップリングを特徴とする,様々な LLM における $textbftransformer block coupling$ 現象を明らかにする。
参考スコア（独自算出の注目度）: 3.007031501305338
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have made significant strides in natural language processing, and a precise understanding of the internal mechanisms driving their success is essential. In this work, we trace the trajectories of individual tokens as they pass through transformer blocks, and linearize the system along these trajectories through their Jacobian matrices. By examining the relationships between these Jacobians, we uncover a $\textbf{transformer block coupling}$ phenomenon in a variety of LLMs, characterized by the coupling of their top singular vectors across tokens and depth. Our findings reveal that coupling $\textit{positively correlates}$ with model performance, and that this relationship is stronger than with other hyperparameters, namely parameter budget, model depth, and embedding dimension. We further investigate the emergence of these properties through training, noting the development of coupling, as well as an increase in linearity and layer-wise exponential growth in the token trajectories. These collective insights provide a novel perspective on the interactions between token embeddings, and prompt further approaches to study training and generalization in LLMs.
Abstract（参考訳）: 大規模言語モデル(LLM)は自然言語処理において大きな進歩を遂げており、その成功を導く内部メカニズムの正確な理解が不可欠である。本研究では,各トークンが変圧器ブロックを通過するときに,個々のトークンの軌跡を辿り,ジャコビアン行列を通じてこれらの軌跡に沿って系を線形化する。これらのヤコビアン間の関係を調べることで、トークンと深さをまたいだ最高特異ベクトルのカップリングを特徴とする、様々な LLM において $\textbf{transformer block coupling}$ 現象が発見された。以上の結果から,$\textit{ positively correlates}$とモデル性能の関係が明らかとなり,パラメータ予算,モデル深さ,埋め込み次元など,他のハイパーパラメータよりも強いことが示唆された。さらに,これらの特性の出現について,結合の発達,およびトークン軌道の線形性および層ワイド指数的成長の増大について考察する。これらの集合的な洞察は、トークンの埋め込み間の相互作用に関する新しい視点を与え、LLMのトレーニングと一般化を研究するためのさらなるアプローチを促す。

関連論文リスト

Dissecting Multimodal In-Context Learning: Modality Asymmetries and Circuit Dynamics in modern Transformers [59.472505916020936]
コンテクスト内の例から,トランスフォーマーがモダリティ間で情報を関連づけることを学ぶ方法について検討する。現代変圧器におけるユニモーダルICLの原理を再考する。メカニスティック分析では、両方の設定は、ラベルをマッチするインコンテキストの例からコピーするインダクションスタイルのメカニズムに依存している。
論文参考訳（メタデータ） (2026-01-28T17:37:28Z)
Multimodal Function Vectors for Spatial Relations [33.20813174218433]
視覚言語モデルOpenFlamingo-4Bの注意点のサブセットが空間関係の表現を伝達する役割を担っていることを示す。これらのアテンションヘッドの活性化は、関数ベクトルと呼ばれ、リレーショナルタスクにおけるLMMのパフォーマンスを変更するために抽出し、操作することができる。
論文参考訳（メタデータ） (2025-10-02T19:55:56Z)
Time-Scale Coupling Between States and Parameters in Recurrent Neural Networks [3.924071936547547]
ゲーテッドニューラルネットワーク(RNN)は、適応的な学習速度の振る舞いを暗黙的に誘発する。効果は状態空間の時間スケールとパラメータ空間のダイナミクスの結合から生じる。経験的シミュレーションはこれらの主張を裏付ける。
論文参考訳（メタデータ） (2025-08-16T18:19:34Z)
Provable In-Context Learning of Nonlinear Regression with Transformers [58.018629320233174]
In-context Learning (ICL) は、パラメータを更新することなくタスク固有のプロンプトを使用して見えないタスクを実行する能力である。最近の研究はICLの背後にあるトレーニングダイナミクスを積極的に探求している。本稿では、変換器が文脈内学習能力をいかに獲得するかを明らかにすることを目的として、より複雑な非線形回帰タスクについて検討する。
論文参考訳（メタデータ） (2025-07-28T00:09:28Z)
Understanding In-Context Learning on Structured Manifolds: Bridging Attention to Kernel Methods [48.038668788625465]
In-context Learning (ICL) は自然言語と視覚領域において顕著な成功を収めた。本研究では、多様体上のH"古い関数の回帰に対するICCの理論的研究を開始する。本研究は, ICLにおける幾何学の役割に関する基礎的な知見と, 非線形モデルのICLを研究するためのノベルティクスツールを提供する。
論文参考訳（メタデータ） (2025-06-12T17:56:26Z)
RiemannFormer: A Framework for Attention in Curved Spaces [0.43512163406552]
この研究は、トランスフォーマーベースのアーキテクチャのさらなる可能性を解き放つための洞察を提供する努力である。主な動機の1つは、変圧器における注意機構の幾何学的解釈を提供することである。
論文参考訳（メタデータ） (2025-06-09T03:56:18Z)
Exact Learning Dynamics of In-Context Learning in Linear Transformers and Its Application to Non-Linear Transformers [1.7034813545878589]
トランスフォーマーモデルは、顕著なインコンテキスト学習(ICL)を示す我々の研究は、ICLの正確な動的モデルを提供し、複雑なトランスフォーマートレーニングを解析するための理論的基盤ツールを提供する。
論文参考訳（メタデータ） (2025-04-17T13:05:33Z)
Sensitivity Meets Sparsity: The Impact of Extremely Sparse Parameter Patterns on Theory-of-Mind of Large Language Models [55.46269953415811]
ToM感受性パラメータを同定し、これらのパラメータの0.001%の摂動がToM性能を著しく低下させることを示す。我々の結果は、モデルアライメントの強化、バイアス軽減、ヒューマンインタラクション用に設計されたAIシステムの改善に影響を及ぼす。
論文参考訳（メタデータ） (2025-04-05T17:45:42Z)
Rethinking Associative Memory Mechanism in Induction Head [37.93644115914534]
本稿では,2層トランスフォーマーがコンテキスト内情報を網羅的に捕捉し,事前学習したビッグラム知識とバランスをとる方法について検討する。本稿では,注目層における重み行列の表現と,変換器がビッグラムモデルによって生成されたプロンプトを付与した場合のロジットを理論的に解析する。
論文参考訳（メタデータ） (2024-12-16T05:33:05Z)
Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文参考訳（メタデータ） (2024-10-22T21:30:01Z)
Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文参考訳（メタデータ） (2024-09-09T18:10:26Z)
Graph-based Unsupervised Disentangled Representation Learning via Multimodal Large Language Models [42.17166746027585]
複素データ内の因子化属性とその相互関係を学習するための双方向重み付きグラフベースフレームワークを提案する。具体的には、グラフの初期ノードとして要素を抽出する$beta$-VAEベースのモジュールを提案する。これらの相補的加群を統合することで、我々は細粒度、実用性、教師なしの絡み合いをうまく達成できる。
論文参考訳（メタデータ） (2024-07-26T15:32:21Z)
Skip-Layer Attention: Bridging Abstract and Detailed Dependencies in Transformers [56.264673865476986]
本稿では、Transformerモデルを強化するためのSLA(Skip-Layer Attention)を提案する。 SLAは、高レベルの抽象機能と低レベルの詳細の間の依存関係をキャプチャするモデルの能力を改善します。我々の実装は、与えられたレイヤ内のクエリが、現在のレイヤと前のレイヤの両方のキーと値とやり取りできるようにすることで、Transformerの機能を拡張します。
論文参考訳（メタデータ） (2024-06-17T07:24:38Z)
Dynamical Mean-Field Theory of Self-Attention Neural Networks [0.0]
トランスフォーマーベースのモデルは、様々な領域で例外的な性能を示している。動作方法や期待されるダイナミクスについてはほとんど分かっていない。非平衡状態における非対称ホップフィールドネットワークの研究に手法を用いる。
論文参考訳（メタデータ） (2024-06-11T13:29:34Z)
MergeNet: Knowledge Migration across Heterogeneous Models, Tasks, and Modalities [72.68829963458408]
異種モデルのパラメータ空間のギャップを埋めることを学ぶMergeNetを提案する。 MergeNetの中核となるメカニズムはパラメータアダプタにあり、ソースモデルの低ランクパラメータをクエリすることで動作する。 MergeNetは両方のモデルと共に学習され、我々のフレームワークは、現在のステージに関する知識を動的に転送し、適応することができます。
論文参考訳（メタデータ） (2024-04-20T08:34:39Z)
Extending Token Computation for LLM Reasoning [5.801044612920816]
大規模言語モデル(LLM)は、自然言語処理の進歩において重要な要素である。 LLMは、非効率な注意分布のため、複雑な推論タスクに苦しむことが多い。本稿では,アテンション機構の最適化を利用して,計算トークンをChain-of-Thoughtプロセスで拡張する新しい手法を提案する。
論文参考訳（メタデータ） (2024-03-22T03:23:58Z)
Characterizing Truthfulness in Large Language Model Generations with Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文参考訳（メタデータ） (2024-02-28T04:56:21Z)
Language Models as Hierarchy Encoders [22.03504018330068]
階層変換器エンコーダ(HiTs)として再学習トランスフォーマーエンコーダを用いたLMを提案する。本手法は, 埋込次元に適応する曲率を持つポアンカー球内に, 予め学習したLMの出力埋め込み空間を定めている。予め訓練したLM, 標準微調整されたLM, およびいくつかの双曲埋め込みベースラインに対するHiTsの評価を行った。
論文参考訳（メタデータ） (2024-01-21T02:29:12Z)
CRaSh: Clustering, Removing, and Sharing Enhance Fine-tuning without Full Large Language Model [22.870512676002463]
本稿では,集中型LCMと下流エミュレータ間でトランスフォーマブロックを転送する代表的手法であるOffsite-Tuning(OFT)に焦点を当てる。これらの観測にインスパイアされたCRaShは、LCMから改善エミュレータを導出するトレーニングフリー戦略であるClustering、Removing、Sharingを含む。以上の結果から,CRaShとOFTの有効性が明らかとなった。
論文参考訳（メタデータ） (2023-10-24T03:08:58Z)
Seeking Neural Nuggets: Knowledge Transfer in Large Language Models from a Parametric Perspective [106.92016199403042]
パラメトリック・パースペクティブを用いて,大規模モデルから小規模モデルへの知識伝達を実証的に検討する。感性に基づく手法を用いて、異なる大言語モデル間で知識固有のパラメータを抽出・調整する。本研究は,パラメトリックな知識伝達の過程に寄与する重要な要因を明らかにする。
論文参考訳（メタデータ） (2023-10-17T17:58:34Z)
How Do Transformers Learn In-Context Beyond Simple Functions? A Case Study on Learning with Representations [98.7450564309923]
本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
論文参考訳（メタデータ） (2023-10-16T17:40:49Z)
Associative Transformer [25.1364199879332]
少人数の入力トークン間の関連性を高めるために,Associative Transformer (AiT)を提案する。 AiTは、さまざまな局所化トークンの抽出を容易にするために、ボトルネック注意を誘導する特別な事前情報を含む学習可能な明示的メモリを使用する。
論文参考訳（メタデータ） (2023-09-22T13:37:10Z)
Going Beyond Linear Mode Connectivity: The Layerwise Linear Feature Connectivity [62.11981948274508]
LLFCの超越についての研究は,特徴学習の視点を取り入れることでLCCの理解を深める。 LLFCの総合的な実証的証拠として,2つの訓練ネットワークがLCCを満たす場合,ほぼすべての層でLLFCを満足することを示す。
論文参考訳（メタデータ） (2023-07-17T07:16:28Z)
Masked Language Modeling for Proteins via Linearly Scalable Long-Context Transformers [42.93754828584075]
我々は、高速注意Via Orthogonal Random機能(FAVOR)に基づく新しいトランスフォーマーアーキテクチャPerformerを提案する。我々の機構は、列内のトークンの数で2次ではなく2次的にスケールし、四次空間の複雑さが特徴であり、スパーシティパターンの先行を含まない。これは強い理論的保証を与える:注意行列の偏りのない推定と一様収束である。
論文参考訳（メタデータ） (2020-06-05T17:09:16Z)
Multilinear Compressive Learning with Prior Knowledge [106.12874293597754]
マルチリニア圧縮学習(MCL)フレームワークは、マルチリニア圧縮センシングと機械学習をエンドツーエンドシステムに統合する。 MCLの背後にある主要なアイデアは、下流学習タスクの信号から重要な特徴を捉えることのできるテンソル部分空間の存在を仮定することである。本稿では、上記の要件、すなわち、関心の信号が分離可能なテンソル部分空間をどうやって見つけるかという、2つの要件に対処する新しい解決策を提案する。
論文参考訳（メタデータ） (2020-02-17T19:06:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。