論文の概要: Self-attention vector output similarities reveal how machines pay attention
- arxiv url: http://arxiv.org/abs/2512.21956v1
- Date: Fri, 26 Dec 2025 10:03:26 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 12:04:08.718838
- Title: Self-attention vector output similarities reveal how machines pay attention
- Title(参考訳): 自己注意ベクトル出力の類似性から、機械が注意を払う方法が明らかに
- Authors: Tal Halevi, Yarden Tzach, Ronit D. Gross, Shalom Rosner, Ido Kanter,
- Abstract要約: 本研究では,自己認識機構内での情報処理を定量化する新しい手法を提案する。
BERT-12アーキテクチャを用いて解析した結果、最終層では、アテンションマップが文分離子トークンに焦点を当てていることが明らかになった。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The self-attention mechanism has significantly advanced the field of natural language processing, facilitating the development of advanced language-learning machines. Although its utility is widely acknowledged, the precise mechanisms of self-attention underlying its advanced learning and the quantitative characterization of this learning process remains an open research question. This study introduces a new approach for quantifying information processing within the self-attention mechanism. The analysis conducted on the BERT-12 architecture reveals that, in the final layers, the attention map focuses on sentence separator tokens, suggesting a practical approach to text segmentation based on semantic features. Based on the vector space emerging from the self-attention heads, a context similarity matrix, measuring the scalar product between two token vectors was derived, revealing distinct similarities between different token vector pairs within each head and layer. The findings demonstrated that different attention heads within an attention block focused on different linguistic characteristics, such as identifying token repetitions in a given text or recognizing a token of common appearance in the text and its surrounding context. This specialization is also reflected in the distribution of distances between token vectors with high similarity as the architecture progresses. The initial attention layers exhibit substantially long-range similarities; however, as the layers progress, a more short-range similarity develops, culminating in a preference for attention heads to create strong similarities within the same sentence. Finally, the behavior of individual heads was analyzed by examining the uniqueness of their most common tokens in their high similarity elements. Each head tends to focus on a unique token from the text and builds similarity pairs centered around it.
- Abstract(参考訳): 自己認識機構は自然言語処理の分野を著しく進歩させ、先進的な言語学習機械の開発を容易にした。
その有用性は広く認識されているが、その先進的な学習の根底にある自己意識の正確なメカニズムと、この学習プロセスの定量的評価は、依然としてオープンな研究課題である。
本研究では,自己認識機構内での情報処理を定量化する新しい手法を提案する。
The analysis on the BERT-12 architecture revealed that the attention map focus on sentence separator tokens, suggests a practical approach to text segmentation based on semantic features。
自己アテンションヘッドから生じるベクトル空間に基づいて, 2つのトークンベクトル間のスカラー積を測定するコンテキスト類似性行列を導出した。
その結果,注目ブロック内の異なる注意領域は,あるテキスト中のトークンの繰り返しの識別や,テキストとその周辺文脈における共通出現のトークンの認識など,異なる言語的特徴に焦点が当てられていることがわかった。
この特殊化は、アーキテクチャが進むにつれて、高い類似性を持つトークンベクトル間の距離の分布にも反映される。
初期の注意層は、かなり長い範囲の類似性を示すが、層が進行するにつれて、より短い範囲の類似性が発展し、同じ文内で強い類似性を生み出すために注意層を優先する。
最後に、個々の頭部の挙動を、高い類似性要素における最も一般的なトークンの特異性を調べることによって分析した。
各頭はテキストからユニークなトークンに焦点を合わせ、それを中心とした類似性ペアを構築する傾向がある。
関連論文リスト
- CoPRS: Learning Positional Prior from Chain-of-Thought for Reasoning Segmentation [51.25997439181537]
CoPRSは、ヘアマップとしてインスタンス化された、微分可能で解釈可能な位置推定を通じて、セグメンテーションへの言語推論をブリッジする。
学習可能な集中トークンは、画像の特徴と推論テキストを集約して、この位置先を生成する。
論文 参考訳(メタデータ) (2025-10-13T09:07:54Z) - Unifying Attention Heads and Task Vectors via Hidden State Geometry in In-Context Learning [8.42768790741139]
本稿では,クエリ隠蔽状態の分離性とアライメントという,性能を左右する2つの幾何学的要因を解析する。
従来のトークンヘッドは分離性を駆動し、誘導ヘッドとタスクベクトルはアライメントを強化する。
そこで本研究は,ICLの基盤となるメカニズムを統一的に記述し,アテンションヘッドとタスクベクトルのギャップを埋めるものである。
論文 参考訳(メタデータ) (2025-05-24T15:42:20Z) - Dissecting Query-Key Interaction in Vision Transformers [4.743574336827573]
視覚変換器における自己注意はしばしば知覚的なグループ化を行うと考えられている。
相互作用行列の特異値分解による問合せキーの相互作用の解析を行う。
論文 参考訳(メタデータ) (2024-04-04T20:06:07Z) - ResMatch: Residual Attention Learning for Local Feature Matching [51.07496081296863]
従来の特徴マッチングとフィルタリングの観点から、クロスアテンションとセルフアテンションを再考する。
我々は,記述者と相対的な位置の類似性を,クロスアテンションスコアとセルフアテンションスコアに注入する。
我々は、記述子と相対的な位置の類似性に応じて隣人内および隣人間を採掘する。
論文 参考訳(メタデータ) (2023-07-11T11:32:12Z) - Kinship Verification Based on Cross-Generation Feature Interaction
Learning [53.62256887837659]
顔画像からの血縁検証は、コンピュータビジョンの応用において、新しいが挑戦的な技術として認識されている。
本稿では,頑健な親族関係検証のためのクロスジェネレーション・インタラクション・ラーニング(CFIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-07T01:50:50Z) - Beyond Self-attention: External Attention using Two Linear Layers for
Visual Tasks [34.32609892928909]
外部注意と呼ばれる新しい注意機構を,外部的,小さく,学習可能,共有的記憶の2つに基づいて提案する。
提案手法は,自己保持機構とその変種に匹敵する性能を有し,計算コストとメモリコストを大幅に低減する。
論文 参考訳(メタデータ) (2021-05-05T22:29:52Z) - Prototypical Representation Learning for Relation Extraction [56.501332067073065]
本論文では, 遠隔ラベルデータから予測可能, 解釈可能, 堅牢な関係表現を学習することを目的とする。
文脈情報から各関係のプロトタイプを学習し,関係の本質的意味を最善に探求する。
いくつかの関係学習タスクの結果,本モデルが従来の関係モデルを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-03-22T08:11:43Z) - Learning Hard Retrieval Decoder Attention for Transformers [69.40942736249397]
トランスフォーマー変換モデルは、容易に並列化できるマルチヘッドアテンション機構に基づいている。
ハード検索の注意機構は復号化の1.43倍高速であることを示す。
論文 参考訳(メタデータ) (2020-09-30T13:18:57Z) - Salience Estimation with Multi-Attention Learning for Abstractive Text
Summarization [86.45110800123216]
テキスト要約のタスクでは、単語、フレーズ、文のサリエンス推定が重要な要素である。
本稿では,サラレンス推定のための2つの新しい注目学習要素を含むマルチアテンション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-07T02:38:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。