Fugu-MT 論文翻訳(概要): An extension of linear self-attention for in-context learning

論文の概要: An extension of linear self-attention for in-context learning

arxiv url: http://arxiv.org/abs/2503.23814v1
Date: Mon, 31 Mar 2025 07:49:05 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-01 19:35:57.309402
Title: An extension of linear self-attention for in-context learning
Title（参考訳）: 文脈内学習のための線形自己注意の拡張
Authors: Katsuyuki Hagiwara,
Abstract要約: インコンテキスト学習は計算変換器の顕著な特性である。注意機構は文中の単語間の関係を符号化し、文中の単語の重みとして使用される。一般的なタスクにおいて,自己意識がコンテキスト内学習に適しているかは疑わしい。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In-context learning is a remarkable property of transformers and has been the focus of recent research. An attention mechanism is a key component in transformers, in which an attention matrix encodes relationships between words in a sentence and is used as weights for words in a sentence. This mechanism is effective for capturing language representations. However, it is questionable whether naive self-attention is suitable for in-context learning in general tasks, since the computation implemented by self-attention is somewhat restrictive in terms of matrix multiplication. In fact, we may need appropriate input form designs when considering heuristic implementations of computational algorithms. In this paper, in case of linear self-attention, we extend it by introducing a bias matrix in addition to a weight matrix for an input. Despite the simple extension, the extended linear self-attention can output any constant matrix, input matrix and multiplications of two or three matrices in the input. Note that the second property implies that it can be a skip connection. Therefore, flexible matrix manipulations can be implemented by connecting the extended linear self-attention components. As an example of implementation using the extended linear self-attention, we show a heuristic construction of a batch-type gradient descent of ridge regression under a reasonable input form.
Abstract（参考訳）: インコンテキスト学習はトランスフォーマーの顕著な特性であり、近年の研究の焦点となっている。注意機構は、注意行列が文中の単語間の関係を符号化し、文中の単語の重みとして使用されるトランスフォーマーのキーコンポーネントである。このメカニズムは言語表現のキャプチャに有効である。しかし,行列乗算の観点では,自己注意による計算がある程度制限されるため,一般タスクにおいて自己意識がコンテキスト内学習に適しているかは疑わしい。実際、計算アルゴリズムのヒューリスティックな実装を考える際には、適切な入力形式設計が必要である。本稿では,線形自己注意の場合,入力の重み行列に加えてバイアス行列を導入して拡張する。単純な拡張にもかかわらず、拡張線形自己アテンションは、任意の定数行列、入力行列、入力中の2つまたは3つの行列の乗算を出力することができる。 2つめのプロパティは、スキップ接続が可能であることを意味することに注意してください。したがって、拡張線形自己アテンション成分を接続することでフレキシブルな行列操作を実現することができる。拡張線形自己アテンションを用いた実装の例として、合理的な入力形式の下で、リッジ回帰のバッチ型勾配勾配のヒューリスティックな構成を示す。

関連論文リスト

A Random Matrix Analysis of In-context Memorization for Nonlinear Attention [18.90197287760915]
非線形注意は、ランダムな入力に対する線形リッジ回帰よりも高い記憶誤差をもたらすことを示す。その結果,非線形注意の記憶性能を管理するために,非線形性と入力構造がどのように相互作用するかが明らかになった。
論文参考訳（メタデータ） (2025-06-23T13:56:43Z)
Spectral Estimation with Free Decompression [47.81955761814048]
非常に大きな(可逆な)行列のスペクトルを推定する「自由減圧」の新たな手法を提案する。提案手法は, 極大(非可逆)行列の固有スペクトルを推定するために, 小型サブマトリクスの実験的スペクトル密度から外挿することができる。
論文参考訳（メタデータ） (2025-06-13T17:49:25Z)
Log-Linear Attention [81.09631871212211]
本稿では,線形注意の効率とソフトマックス注意の表現性をバランスさせる注意機構である対数線形注意を開発する。特定の成長関数を用いて、対数線形アテンションは、計算コストが列長で対数線形である類似のマトゥルリッチ並列形式を許容することを示す。ログ線形アテンションは一般的なフレームワークであり、既存の線形アテンションのバリエーションの上に適用することができる。
論文参考訳（メタデータ） (2025-06-05T08:44:51Z)
Position: Curvature Matrices Should Be Democratized via Linear Operators [6.946287154076936]
線形演算子は、曲率行列を扱う汎用的でスケーラブルでユーザフレンドリな抽象化を提供する。 $textitcurvlinops$は、統一された線形演算子インターフェイスを通じて曲率行列を提供するライブラリである。私たちは$textitcurvlinops$で、このインターフェースがいかに複雑さを隠蔽し、アプリケーションを単純化し、他のライブラリと相互運用可能で、大規模なNNにスケールするかを示します。
論文参考訳（メタデータ） (2025-01-31T14:46:30Z)
Learning Linear Attention in Polynomial Time [115.68795790532289]
線形注意を持つ単層変圧器の学習性に関する最初の結果を提供する。線形アテンションは RKHS で適切に定義された線形予測器とみなすことができる。我々は,すべての経験的リスクが線形変換器と同等のトレーニングデータセットを効率的に識別する方法を示す。
論文参考訳（メタデータ） (2024-10-14T02:41:01Z)
Graph Neural Networks and Applied Linear Algebra [1.8749305679160366]
グラフニューラルネットワーク(GNN)は、スパース行列計算に適したアプローチである。本稿では,数値線形代数オーディエンスのためのGNNを紹介する。具体例は、GNNを用いて、どれだけの共通線型代数タスクを達成できるかを示すものである。
論文参考訳（メタデータ） (2023-10-21T18:37:56Z)
SEA: Sparse Linear Attention with Estimated Attention Mask [51.22399593954608]
長い連続性は、注意操作の二次的な複雑さのために問題を引き起こす。従来の研究は、注意行列をスパース化または線形に近似することで複雑さを低下させることを目的としていた。推定アテンションマスクを用いたSparse linear attentionを提案する。
論文参考訳（メタデータ） (2023-10-03T03:56:26Z)
CoLA: Exploiting Compositional Structure for Automatic and Efficient Numerical Linear Algebra [62.37017125812101]
機械学習における大規模線形代数問題に対して, CoLA という, 単純だが汎用的なフレームワークを提案する。線形演算子抽象と合成ディスパッチルールを組み合わせることで、CoLAはメモリと実行時の効率的な数値アルゴリズムを自動的に構築する。偏微分方程式,ガウス過程,同変モデル構築,教師なし学習など,幅広い応用で有効性を示す。
論文参考訳（メタデータ） (2023-09-06T14:59:38Z)
DBA: Efficient Transformer with Dynamic Bilinear Low-Rank Attention [53.02648818164273]
動的双線形低ランク注意(DBA)という,効率的かつ効果的な注意機構を提案する。 DBAは入力感度の動的射影行列によってシーケンス長を圧縮し、線形時間と空間の複雑さを実現する。様々なシーケンス長条件のタスクに対する実験は、DBAが最先端のパフォーマンスを達成することを示す。
論文参考訳（メタデータ） (2022-11-24T03:06:36Z)
How Much Does Attention Actually Attend? Questioning the Importance of Attention in Pretrained Transformers [59.57128476584361]
本稿では,入力依存型アテンション行列を一定値に置き換える新しい探索手法PAPAを紹介する。入力依存の注意を払わずに、全てのモデルが競争性能を達成できることがわかった。より弱いモデルよりも、我々の手法を適用することでより良い性能のモデルが失われることが示され、入力依存の注意機構の利用がその成功の要因である可能性が示唆された。
論文参考訳（メタデータ） (2022-11-07T12:37:54Z)
Combinatory Adjoints and Differentiation [0.0]
機能解析におけるカテゴリー構造に基づく自動的および記号的微分のための構成的アプローチを開発する。本稿では,線形関数を生成する微分計算を用いて,記号的および自動微分が可能であることを示す。また、行列を使わずに微分の随伴を記号的に計算する計算も提供する。
論文参考訳（メタデータ） (2022-07-02T14:34:54Z)
On the Expressive Power of Self-Attention Matrices [41.72598286888797]
固定自己アテンションモジュールは入力に応じて任意のスパースパターンを近似することができることを示す。行列を近似するために適応的な入力と固定された自己アテンションパラメータを求めるアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-06-07T16:30:28Z)
Sketching Transformed Matrices with Applications to Natural Language Processing [76.6222695417524]
本稿では, 変換行列を用いて, 与えられた小さな行列の積を計算するための空間効率のよいスケッチアルゴリズムを提案する。提案手法は誤差が小さく,空間と時間の両方で効率がよいことを示す。
論文参考訳（メタデータ） (2020-02-23T03:07:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。