論文の概要: Gating is Weighting: Understanding Gated Linear Attention through In-context Learning
- arxiv url: http://arxiv.org/abs/2504.04308v1
- Date: Sun, 06 Apr 2025 00:37:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:15:36.422565
- Title: Gating is Weighting: Understanding Gated Linear Attention through In-context Learning
- Title(参考訳): ゲーティングは重み付け:インコンテキスト学習によるゲート付き線形注意の理解
- Authors: Yingcong Li, Davoud Ataee Tarzanagh, Ankit Singh Rawat, Maryam Fazel, Samet Oymak,
- Abstract要約: GLA(Gated Linear Attention)アーキテクチャには、MambaやRWKVといった競合モデルが含まれている。
重み付きプレコンディショニング・グラディエント・ディフレクション(WPGD)アルゴリズムの一般クラスを多層GLAで実装可能であることを示す。
穏やかな条件下では、一意の WPGD 解に対応する大域的最小値の存在と一意性(スケーリングまで)を確立する。
- 参考スコア(独自算出の注目度): 48.90556054777393
- License:
- Abstract: Linear attention methods offer a compelling alternative to softmax attention due to their efficiency in recurrent decoding. Recent research has focused on enhancing standard linear attention by incorporating gating while retaining its computational benefits. Such Gated Linear Attention (GLA) architectures include competitive models such as Mamba and RWKV. In this work, we investigate the in-context learning capabilities of the GLA model and make the following contributions. We show that a multilayer GLA can implement a general class of Weighted Preconditioned Gradient Descent (WPGD) algorithms with data-dependent weights. These weights are induced by the gating mechanism and the input, enabling the model to control the contribution of individual tokens to prediction. To further understand the mechanics of this weighting, we introduce a novel data model with multitask prompts and characterize the optimization landscape of learning a WPGD algorithm. Under mild conditions, we establish the existence and uniqueness (up to scaling) of a global minimum, corresponding to a unique WPGD solution. Finally, we translate these findings to explore the optimization landscape of GLA and shed light on how gating facilitates context-aware learning and when it is provably better than vanilla linear attention.
- Abstract(参考訳): 線形アテンション法は、繰り返し復号する際の効率のため、ソフトマックスアテンションに代わる魅力的な代替手段を提供する。
近年の研究では、ゲーティングを取り入れながら計算上の利点を維持しながら、標準線形注意力の向上に焦点が当てられている。
このようなGLAアーキテクチャには、MambaやRWKVといった競合モデルが含まれる。
本研究では,GLAモデルの文脈内学習能力について検討し,以下の貢献を行う。
我々は,重み付き重み付き重み付き重み付き重み付き重み付きWPGDアルゴリズムを多層GLAで実装可能であることを示す。
これらの重みはゲーティング機構と入力によって誘導され、モデルが予測への個々のトークンの寄与を制御することができる。
この重み付けの力学をより深く理解するために、マルチタスクプロンプトを用いた新しいデータモデルを導入し、WPGDアルゴリズムを学習する際の最適化環境を特徴付ける。
穏やかな条件下では、一意の WPGD 解に対応する大域的最小値の存在と特異性(スケーリングまで)を確立する。
最後に、これらの知見をGLAの最適化の展望に翻訳し、ゲーティングが文脈認識学習をいかに促すか、そしてそれがバニラ線形注意よりも確実に優れているかについて光を当てる。
関連論文リスト
- Improving Autoregressive Visual Generation with Cluster-Oriented Token Prediction [52.09472099976885]
IARは、LLMベースのビジュアル生成モデルのトレーニング効率と生成品質を向上させる改良された自動回帰ビジュアル生成方法である。
提案手法は,モデルのトレーニング効率と性能を100Mから1.4Bに継続的に向上させ,同じFIDを達成しながらトレーニング時間を半減させる。
論文 参考訳(メタデータ) (2025-01-01T15:58:51Z) - Simple Is Effective: The Roles of Graphs and Large Language Models in Knowledge-Graph-Based Retrieval-Augmented Generation [9.844598565914055]
大きな言語モデル(LLM)は強い推論能力を示すが、幻覚や時代遅れの知識のような制限に直面している。
本稿では、サブグラフを検索する知識グラフ(KG)ベースのRetrieval-Augmented Generation(RAG)フレームワークを拡張するSubgraphRAGを紹介する。
提案手法は,高効率かつフレキシブルなサブグラフ検索を実現するために,並列3重装飾機構を備えた軽量多層パーセプトロンを革新的に統合する。
論文 参考訳(メタデータ) (2024-10-28T04:39:32Z) - Bridging Large Language Models and Graph Structure Learning Models for Robust Representation Learning [22.993015048941444]
グラフ表現学習は現実世界のアプリケーションには不可欠だが、広範にわたるノイズに遭遇することが多い。
本稿では,事前学習された言語モデルとグラフ構造学習モデルの相補的な長所を統合するフレームワークであるLangGSLを紹介する。
論文 参考訳(メタデータ) (2024-10-15T22:43:32Z) - How to Make LLMs Strong Node Classifiers? [70.14063765424012]
言語モデル(LM)は、グラフニューラルネットワーク(GNN)やグラフトランスフォーマー(GT)など、ドメイン固有のモデルの優位性に挑戦している。
本稿では,ノード分類タスクにおける最先端(SOTA)GNNに匹敵する性能を実現するために,既製のLMを有効活用する手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T08:27:54Z) - On the Generalization Capability of Temporal Graph Learning Algorithms:
Theoretical Insights and a Simpler Method [59.52204415829695]
テンポラルグラフ学習(TGL)は、様々な現実世界のアプリケーションにまたがる一般的なテクニックとなっている。
本稿では,異なるTGLアルゴリズムの一般化能力について検討する。
一般化誤差が小さく、全体的な性能が向上し、モデルの複雑さが低下する単純化されたTGLネットワークを提案する。
論文 参考訳(メタデータ) (2024-02-26T08:22:22Z) - Joint Graph Learning and Model Fitting in Laplacian Regularized
Stratified Models [5.933030735757292]
ラプラシア正規化成層モデル(Laplacian regularized Stratified Model、LRSM)は、サブプロブレムの明示的または暗黙的なネットワーク構造を利用するモデルである。
本稿では,LRSMにおけるグラフ重みの重要性と感度を示し,その感度が任意に大きいことを示す。
本稿では,1つの最適化問題を解くことで,モデルパラメータを適合させながらグラフを共同学習する汎用的手法を提案する。
論文 参考訳(メタデータ) (2023-05-04T06:06:29Z) - Semi-Supervised Graph Learning Meets Dimensionality Reduction [0.0]
半教師付き学習(SSL)は最近、機械学習研究者から注目を集めている。
本研究では,PCA, t-SNE, UMAPなどの次元減少技術を用いて, グラフニューラルネットワーク(GNN)の性能に与える影響について検討する。
ベンチマークとクラスタリングの可視化により,GNN入力と出力に対する先行次元と後続次元の低減をそれぞれ利用することで,半教師付きノードラベルの伝搬とノードクラスタリングの有効性を同時に向上できることが示された。
論文 参考訳(メタデータ) (2022-03-23T16:31:53Z) - Towards Unsupervised Deep Graph Structure Learning [67.58720734177325]
本稿では,学習したグラフトポロジを外部ガイダンスなしでデータ自身で最適化する,教師なしグラフ構造学習パラダイムを提案する。
具体的には、元のデータから"アンカーグラフ"として学習目標を生成し、対照的な損失を用いてアンカーグラフと学習グラフとの一致を最大化する。
論文 参考訳(メタデータ) (2022-01-17T11:57:29Z) - Towards Open-World Feature Extrapolation: An Inductive Graph Learning
Approach [80.8446673089281]
グラフ表現と学習を伴う新しい学習パラダイムを提案する。
本フレームワークは,1) 下位モデルとしてのバックボーンネットワーク(フィードフォワードニューラルネットなど)が,予測ラベルの入力および出力として機能を取り,2) 上位モデルとしてのグラフニューラルネットワークが,観測データから構築された特徴データグラフをメッセージパッシングすることで,新機能の埋め込みを外挿することを学ぶ。
論文 参考訳(メタデータ) (2021-10-09T09:02:45Z) - Data-Informed Global Sparseness in Attention Mechanisms for Deep Neural Networks [33.07113523598028]
本研究では,アテンション・プルーニング(Attention Pruning,AP)を提案する。
APは、言語モデリングの注意計算の90%を節約し、機械翻訳とGLUEタスクの約50%を節約し、結果の品質を維持している。
論文 参考訳(メタデータ) (2020-11-20T13:58:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。