論文の概要: Paying Attention to Facts: Quantifying the Knowledge Capacity of Attention Layers
- arxiv url: http://arxiv.org/abs/2502.05076v1
- Date: Fri, 07 Feb 2025 16:50:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:58:12.407472
- Title: Paying Attention to Facts: Quantifying the Knowledge Capacity of Attention Layers
- Title(参考訳): ファクトに注意を払う: 注意層における知識能力の定量化
- Authors: Liang Ze Wong,
- Abstract要約: 線形代数的視点からデータベースに含まれる事実を記憶する単一層アテンションのみのトランスフォーマー(すなわちアテンション層)の能力について検討する。
提案手法は,値出力とクエリキーの重みが果たす役割と,argmaxとSoftmaxがランクに与える影響を強調することにより,トランスフォーマーのファクトリコールの付加モチーフに光を当てた。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In this paper, we investigate the ability of single-layer attention-only transformers (i.e. attention layers) to memorize facts contained in databases from a linear-algebraic perspective. We associate with each database a 3-tensor, propose the rank of this tensor as a measure of the size of the database, and provide bounds on the rank in terms of properties of the database. We also define a 3-tensor corresponding to an attention layer, and empirically demonstrate the relationship between its rank and database rank on a dataset of toy models and random databases. By highlighting the roles played by the value-output and query-key weights, and the effects of argmax and softmax on rank, our results shed light on the `additive motif' of factual recall in transformers, while also suggesting a way of increasing layer capacity without increasing the number of parameters.
- Abstract(参考訳): 本稿では,線形代数的観点から,データベースに含まれる事実を記憶する単一層アテンションのみのトランスフォーマー(すなわちアテンション層)の能力について検討する。
我々は,各データベースを3つのテンソルに関連付け,このテンソルのランクをデータベースの大きさの尺度として提案し,データベースの特性の観点からランクのバウンダリを提供する。
また、注意層に対応する3つのテンソルを定義し、玩具モデルとランダムデータベースのデータセット上で、そのランクとデータベースランクの関係を実証的に示す。
提案手法は,値出力とクエリキー重みが果たす役割と,argmaxとSoftmaxがランクに与える影響を強調することにより,トランスフォーマーの「付加モチーフ」に光を当てるとともに,パラメータ数を増やすことなく層容量を増大させる方法を提案する。
関連論文リスト
- Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence [92.07601770031236]
本稿では,エンコーダのみのトランスフォーマーアーキテクチャのアテンションヘッドにおける意味的意味パターンについて検討する。
注意重みの修正はトレーニングプロセスの促進だけでなく,最適化の安定性の向上にも寄与する。
論文 参考訳(メタデータ) (2024-09-20T07:41:47Z) - Prospector Heads: Generalized Feature Attribution for Large Models & Data [82.02696069543454]
本稿では,説明に基づく帰属手法の効率的かつ解釈可能な代替手段であるプロスペクタヘッドを紹介する。
入力データにおけるクラス固有のパターンの解釈と発見を、プロファイラヘッドがいかに改善できるかを実証する。
論文 参考訳(メタデータ) (2024-02-18T23:01:28Z) - Better Explain Transformers by Illuminating Important Information [12.781602543866933]
本稿では,レイヤワイド関連伝搬(LRP)法上での洗練された情報フローによる重要情報の強調と無関係情報の排除を提案する。
実験結果から、無関係な情報が出力帰属スコアを歪め、説明計算中に隠蔽することを示した。
論文 参考訳(メタデータ) (2024-01-18T13:41:08Z) - Polynomial-based Self-Attention for Table Representation learning [23.651207486167518]
Transformersの重要なコンポーネントであるセルフアテンションは、過度にスムースな問題を引き起こす可能性がある。
そこで本研究では,行列ベースの自己アテンション層を元の自己アテンション層に代えて,新しい自己アテンション層を提案する。
提案する3つの表学習モデルを用いて実験を行った結果,この層が過度に平滑な問題を効果的に緩和することを示した。
論文 参考訳(メタデータ) (2023-12-12T21:49:26Z) - Weakly-supervised 3D Pose Transfer with Keypoints [57.66991032263699]
3Dポーズ転送の主な課題は、1) 異なる文字で同じポーズを行うペアトレーニングデータの欠如、2) ターゲットメッシュからポーズと形状情報を分離すること、3) 異なるトポロジを持つメッシュに適用することの難しさである。
本稿では,これらの課題を克服するためのキーポイントベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T12:40:24Z) - Implant Global and Local Hierarchy Information to Sequence based Code
Representation Models [25.776540440893257]
完全な階層構造がコードシーケンスのトークンに与える影響を分析し、階層埋め込みと呼ばれるコードトークンの特性として、この影響を抽象化する。
ソースコードの完全な階層化をトランスフォーマーモデルに組み込むための,単純かつ効果的なシーケンスモデルである階層変換器(HiT)を提案する。
論文 参考訳(メタデータ) (2023-03-14T12:01:39Z) - Multi-Layer Attention-Based Explainability via Transformers for Tabular Data [11.866061471514582]
グラフ指向の注意に基づく表データの説明可能性法を提案する。
すべての頭とレイヤーの注意行列を考慮に入れます。
多層アテンションに基づく説明の質を評価するために、一般的なアテンション、勾配、摂動に基づく説明可能性法と比較する。
論文 参考訳(メタデータ) (2023-02-28T03:28:18Z) - Augmenting Convolutional networks with attention-based aggregation [55.97184767391253]
我々は,非局所的推論を実現するために,注目に基づくグローバルマップを用いた畳み込みネットワークの強化方法を示す。
この学習集約層を2つのパラメータ(幅と深さ)でパラメータ化した単純パッチベースの畳み込みネットワークで接続する。
これは、特にメモリ消費の点で、精度と複雑さの間の驚くほど競争力のあるトレードオフをもたらす。
論文 参考訳(メタデータ) (2021-12-27T14:05:41Z) - Topological Data Analysis of Database Representations for Information
Retrieval [2.729524133721473]
永続ホモロジーはデータベーストポロジーの厳密な特徴付けを提供する。
我々は、一般的な埋め込みが接続を維持するのに失敗することを示した。
この効果を捉えるために、拡散不変ボトルネック距離を導入する。
論文 参考訳(メタデータ) (2021-04-04T19:29:47Z) - Campus3D: A Photogrammetry Point Cloud Benchmark for Hierarchical
Understanding of Outdoor Scene [76.4183572058063]
複数の屋外シーン理解タスクに対して,リッチな注釈付き3Dポイントクラウドデータセットを提案する。
データセットは階層型ラベルとインスタンスベースのラベルの両方でポイントワイズアノテートされている。
本稿では,3次元点雲分割のための階層的学習問題を定式化し,様々な階層間の整合性を評価することを提案する。
論文 参考訳(メタデータ) (2020-08-11T19:10:32Z) - Self-Attention Attribution: Interpreting Information Interactions Inside
Transformer [89.21584915290319]
本稿では,トランスフォーマー内の情報相互作用を解釈する自己帰属属性法を提案する。
本研究は,BERT に対する非目標攻撃の実装において,その属性を敵対パターンとして用いることができることを示す。
論文 参考訳(メタデータ) (2020-04-23T14:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。