論文の概要: An extension of linear self-attention for in-context learning
- arxiv url: http://arxiv.org/abs/2503.23814v1
- Date: Mon, 31 Mar 2025 07:49:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:34:12.748893
- Title: An extension of linear self-attention for in-context learning
- Title(参考訳): 文脈内学習のための線形自己注意の拡張
- Authors: Katsuyuki Hagiwara,
- Abstract要約: インコンテキスト学習は計算変換器の顕著な特性である。
注意機構は文中の単語間の関係を符号化し、文中の単語の重みとして使用される。
一般的なタスクにおいて,自己意識がコンテキスト内学習に適しているかは疑わしい。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In-context learning is a remarkable property of transformers and has been the focus of recent research. An attention mechanism is a key component in transformers, in which an attention matrix encodes relationships between words in a sentence and is used as weights for words in a sentence. This mechanism is effective for capturing language representations. However, it is questionable whether naive self-attention is suitable for in-context learning in general tasks, since the computation implemented by self-attention is somewhat restrictive in terms of matrix multiplication. In fact, we may need appropriate input form designs when considering heuristic implementations of computational algorithms. In this paper, in case of linear self-attention, we extend it by introducing a bias matrix in addition to a weight matrix for an input. Despite the simple extension, the extended linear self-attention can output any constant matrix, input matrix and multiplications of two or three matrices in the input. Note that the second property implies that it can be a skip connection. Therefore, flexible matrix manipulations can be implemented by connecting the extended linear self-attention components. As an example of implementation using the extended linear self-attention, we show a heuristic construction of a batch-type gradient descent of ridge regression under a reasonable input form.
- Abstract(参考訳): インコンテキスト学習はトランスフォーマーの顕著な特性であり、近年の研究の焦点となっている。
注意機構は、注意行列が文中の単語間の関係を符号化し、文中の単語の重みとして使用されるトランスフォーマーのキーコンポーネントである。
このメカニズムは言語表現のキャプチャに有効である。
しかし,行列乗算の観点では,自己注意による計算がある程度制限されるため,一般タスクにおいて自己意識がコンテキスト内学習に適しているかは疑わしい。
実際、計算アルゴリズムのヒューリスティックな実装を考える際には、適切な入力形式設計が必要である。
本稿では,線形自己注意の場合,入力の重み行列に加えてバイアス行列を導入して拡張する。
単純な拡張にもかかわらず、拡張線形自己アテンションは、任意の定数行列、入力行列、入力中の2つまたは3つの行列の乗算を出力することができる。
2つめのプロパティは、スキップ接続が可能であることを意味することに注意してください。
したがって、拡張線形自己アテンション成分を接続することでフレキシブルな行列操作を実現することができる。
拡張線形自己アテンションを用いた実装の例として、合理的な入力形式の下で、リッジ回帰のバッチ型勾配勾配のヒューリスティックな構成を示す。
関連論文リスト
- Position: Curvature Matrices Should Be Democratized via Linear Operators [6.946287154076936]
線形演算子は、曲率行列を扱う汎用的でスケーラブルでユーザフレンドリな抽象化を提供する。
$textitcurvlinops$は、統一された線形演算子インターフェイスを通じて曲率行列を提供するライブラリである。
私たちは$textitcurvlinops$で、このインターフェースがいかに複雑さを隠蔽し、アプリケーションを単純化し、他のライブラリと相互運用可能で、大規模なNNにスケールするかを示します。
論文 参考訳(メタデータ) (2025-01-31T14:46:30Z) - Learning Linear Attention in Polynomial Time [115.68795790532289]
線形注意を持つ単層変圧器の学習性に関する最初の結果を提供する。
線形アテンションは RKHS で適切に定義された線形予測器とみなすことができる。
我々は,すべての経験的リスクが線形変換器と同等のトレーニングデータセットを効率的に識別する方法を示す。
論文 参考訳(メタデータ) (2024-10-14T02:41:01Z) - Graph Neural Networks and Applied Linear Algebra [1.8749305679160366]
グラフニューラルネットワーク(GNN)は、スパース行列計算に適したアプローチである。
本稿では,数値線形代数オーディエンスのためのGNNを紹介する。
具体例は、GNNを用いて、どれだけの共通線型代数タスクを達成できるかを示すものである。
論文 参考訳(メタデータ) (2023-10-21T18:37:56Z) - SEA: Sparse Linear Attention with Estimated Attention Mask [51.22399593954608]
長い連続性は、注意操作の二次的な複雑さのために問題を引き起こす。
従来の研究は、注意行列をスパース化または線形に近似することで複雑さを低下させることを目的としていた。
推定アテンションマスクを用いたSparse linear attentionを提案する。
論文 参考訳(メタデータ) (2023-10-03T03:56:26Z) - CoLA: Exploiting Compositional Structure for Automatic and Efficient
Numerical Linear Algebra [62.37017125812101]
機械学習における大規模線形代数問題に対して, CoLA という, 単純だが汎用的なフレームワークを提案する。
線形演算子抽象と合成ディスパッチルールを組み合わせることで、CoLAはメモリと実行時の効率的な数値アルゴリズムを自動的に構築する。
偏微分方程式,ガウス過程,同変モデル構築,教師なし学習など,幅広い応用で有効性を示す。
論文 参考訳(メタデータ) (2023-09-06T14:59:38Z) - DBA: Efficient Transformer with Dynamic Bilinear Low-Rank Attention [53.02648818164273]
動的双線形低ランク注意(DBA)という,効率的かつ効果的な注意機構を提案する。
DBAは入力感度の動的射影行列によってシーケンス長を圧縮し、線形時間と空間の複雑さを実現する。
様々なシーケンス長条件のタスクに対する実験は、DBAが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2022-11-24T03:06:36Z) - How Much Does Attention Actually Attend? Questioning the Importance of
Attention in Pretrained Transformers [59.57128476584361]
本稿では,入力依存型アテンション行列を一定値に置き換える新しい探索手法PAPAを紹介する。
入力依存の注意を払わずに、全てのモデルが競争性能を達成できることがわかった。
より弱いモデルよりも、我々の手法を適用することでより良い性能のモデルが失われることが示され、入力依存の注意機構の利用がその成功の要因である可能性が示唆された。
論文 参考訳(メタデータ) (2022-11-07T12:37:54Z) - Combinatory Adjoints and Differentiation [0.0]
機能解析におけるカテゴリー構造に基づく自動的および記号的微分のための構成的アプローチを開発する。
本稿では,線形関数を生成する微分計算を用いて,記号的および自動微分が可能であることを示す。
また、行列を使わずに微分の随伴を記号的に計算する計算も提供する。
論文 参考訳(メタデータ) (2022-07-02T14:34:54Z) - On the Expressive Power of Self-Attention Matrices [41.72598286888797]
固定自己アテンションモジュールは入力に応じて任意のスパースパターンを近似することができることを示す。
行列を近似するために適応的な入力と固定された自己アテンションパラメータを求めるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-07T16:30:28Z) - Sketching Transformed Matrices with Applications to Natural Language
Processing [76.6222695417524]
本稿では, 変換行列を用いて, 与えられた小さな行列の積を計算するための空間効率のよいスケッチアルゴリズムを提案する。
提案手法は誤差が小さく,空間と時間の両方で効率がよいことを示す。
論文 参考訳(メタデータ) (2020-02-23T03:07:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。