論文の概要: Decomposing Attention To Find Context-Sensitive Neurons
- arxiv url: http://arxiv.org/abs/2510.03315v1
- Date: Wed, 01 Oct 2025 00:29:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:58.817363
- Title: Decomposing Attention To Find Context-Sensitive Neurons
- Title(参考訳): 文脈感覚ニューロン発見への注意を分解する
- Authors: Alex Gibson,
- Abstract要約: 本研究は,注意パターンが広まっており,注意スコアが内容に左右されるアテンションヘッドについて検討する。
我々は、GPT2-Smallの第1層における複数の安定ヘッドの出力を結合し、周辺テキストの線形要約によってそれらの組合せ出力を近似する。
- 参考スコア(独自算出の注目度): 0.6345523830122167
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study transformer language models, analyzing attention heads whose attention patterns are spread out, and whose attention scores depend weakly on content. We argue that the softmax denominators of these heads are stable when the underlying token distribution is fixed. By sampling softmax denominators from a "calibration text", we can combine together the outputs of multiple such stable heads in the first layer of GPT2-Small, approximating their combined output by a linear summary of the surrounding text. This approximation enables a procedure where from the weights alone - and a single calibration text - we can uncover hundreds of first layer neurons that respond to high-level contextual properties of the surrounding text, including neurons that didn't activate on the calibration text.
- Abstract(参考訳): 我々はトランスフォーマー言語モデルについて研究し、注意パターンが広まっており、注意スコアがコンテンツに弱い注目ヘッドを分析した。
これらのヘッドのソフトマックス分母は、基礎となるトークン分布が固定されたときに安定であると主張する。
校正テキスト」からソフトマックス分母をサンプリングすることにより、GPT2-Smallの第1層に複数の安定ヘッドの出力を組み合わせ、周辺テキストの線形要約によってそれらの組合せ出力を近似することができる。
この近似は、重みだけで、そして単一の校正テキストから、周辺テキストの高レベルな文脈特性に反応する数百の第一層ニューロンを発見できる。
関連論文リスト
- Probing Brain Context-Sensitivity with Masked-Attention Generation [87.31930367845125]
我々は、GPT-2変換器を用いて、一定量の文脈情報をキャプチャする単語埋め込みを生成する。
そして、自然主義的なテキストを聴く人間のfMRI脳活動を予測することができるかどうかを検証した。
論文 参考訳(メタデータ) (2023-05-23T09:36:21Z) - CORE-Text: Improving Scene Text Detection with Contrastive Relational
Reasoning [65.57338873921168]
自然界におけるテキストインスタンスのローカライズは、コンピュータビジョンにおける根本的な課題であると考えられている。
本研究では,サブテキスト問題を定量的に解析し,シンプルで効果的な設計であるContrastive Relation(CORE)モジュールを提案する。
我々は、COREモジュールをMask R-CNNの2段階テキスト検出器に統合し、テキスト検出器CORE-Textを考案する。
論文 参考訳(メタデータ) (2021-12-14T16:22:25Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Controlling Hallucinations at Word Level in Data-to-Text Generation [10.59137381324694]
最先端のニューラルモデルには、アウトプットに誤解を招くステートメントが含まれている。
本稿では,単語レベルのラベルを利用して各トレーニングインスタンスの関連部分を学習できるマルチブランチデコーダを提案する。
我々のモデルは、生成したテキストの流布とコヒーレンスを維持しながら、幻覚を減らし制御することができる。
論文 参考訳(メタデータ) (2021-02-04T18:58:28Z) - Mirostat: A Neural Text Decoding Algorithm that Directly Controls
Perplexity [22.15683400807154]
我々は、トップk、トップp、温度サンプリングにおけるパープレキシティの理論解析を用いて、フィードバックに基づく適応的なトップkテキスト復号アルゴリズムであるミロスタットを設計する。
実験により、トップkおよびトップpサンプリングにおけるkとpの低い値に対して、パープレキシティは生成したテキストの長さとともに著しく低下することが示された。
k と p の大きな値の場合、テキスト長の生成とともにパープレキシティが増加し、テキストの不整合と相関する。
論文 参考訳(メタデータ) (2020-07-29T17:22:26Z) - Neural Data-to-Text Generation via Jointly Learning the Segmentation and
Correspondence [48.765579605145454]
対象のテキストを断片単位に明示的に分割し,それらのデータ対応と整合させることを提案する。
結果として生じるアーキテクチャは、ニューラルアテンションモデルと同じ表現力を維持している。
E2EとWebNLGのベンチマークでは、提案モデルがニューラルアテンションよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2020-05-03T14:28:28Z) - Exploring Explainable Selection to Control Abstractive Summarization [51.74889133688111]
説明可能性を重視した新しいフレームワークを開発する。
新しいペアワイズ行列は、文の相互作用、中心性、属性スコアをキャプチャする。
コンストラクタ内の文分割アテンション機構は、最終要約が所望のコンテンツを強調することを保証する。
論文 参考訳(メタデータ) (2020-04-24T14:39:34Z) - The Simulator: Understanding Adaptive Sampling in the
Moderate-Confidence Regime [52.38455827779212]
エミュレータと呼ばれる適応サンプリングを解析するための新しい手法を提案する。
適切なログファクタを組み込んだトップk問題の最初のインスタンスベースの下位境界を証明します。
我々の新しい分析は、後者の問題に対するこの種の最初のエミュレータであるベストアームとトップkの識別に、シンプルでほぼ最適であることを示した。
論文 参考訳(メタデータ) (2017-02-16T23:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。