論文の概要: Plausibility Processing in Transformer Language Models: Focusing on the
Role of Attention Heads in GPT
- arxiv url: http://arxiv.org/abs/2310.13824v1
- Date: Fri, 20 Oct 2023 21:31:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 05:08:32.108690
- Title: Plausibility Processing in Transformer Language Models: Focusing on the
Role of Attention Heads in GPT
- Title(参考訳): トランスフォーマー言語モデルにおける可能性処理: gptにおける注意ヘッドの役割に着目して
- Authors: Soo Hyun Ryu
- Abstract要約: GPT2は、他のトランスフォーマー言語モデルと比較して、可視性処理において人間と高い類似性を示す。
私は、GPT2の注意ヘッドに、どのように可視性に関する知識が含まれているか、そしてこれらの頭部がGPT2の可視性処理能力に因果的にどのように寄与するかを調べた。
- 参考スコア(独自算出の注目度): 1.0482475729760254
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The goal of this paper is to explore how Transformer language models process
semantic knowledge, especially regarding the plausibility of noun-verb
relations. First, I demonstrate GPT2 exhibits a higher degree of similarity
with humans in plausibility processing compared to other Transformer language
models. Next, I delve into how knowledge of plausibility is contained within
attention heads of GPT2 and how these heads causally contribute to GPT2's
plausibility processing ability. Through several experiments, it was found
that: i) GPT2 has a number of attention heads that detect plausible noun-verb
relationships; ii) these heads collectively contribute to the Transformer's
ability to process plausibility, albeit to varying degrees; and iii) attention
heads' individual performance in detecting plausibility does not necessarily
correlate with how much they contribute to GPT2's plausibility processing
ability.
- Abstract(参考訳): 本稿では,トランスフォーマー言語モデルが意味知識をどのように処理するか,特に名詞-動詞関係の妥当性について検討する。
まず, gpt2は他のトランスフォーマー言語モデルと比較して, ヒトとの類似度が高いことを示す。
次に, gpt2の注意ヘッドにおける実用性に関する知識と, gpt2の実用性処理能力の因果関係について考察する。
いくつかの実験でこう分かりました
一) GPT2は、可算名詞-動詞関係を検出する多くの注意頭を有する。
二 これらの頭は、変圧器の可視性を処理する能力に総じて寄与する。
三 視認性検出における注意頭の性能は、GPT2の視認性処理能力にどの程度寄与するかと必ずしも相関しない。
関連論文リスト
- DAPE V2: Process Attention Score as Feature Map for Length Extrapolation [63.87956583202729]
我々は特徴写像としての注意を概念化し、コンピュータビジョンにおける処理方法を模倣するために畳み込み演算子を適用した。
様々な注意関係のモデルに適応できる新しい洞察は、現在のTransformerアーキテクチャがさらなる進化の可能性があることを示している。
論文 参考訳(メタデータ) (2024-10-07T07:21:49Z) - Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。
両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。
我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文 参考訳(メタデータ) (2024-05-10T17:11:31Z) - (Chat)GPT v BERT: Dawn of Justice for Semantic Change Detection [1.9226023650048942]
BERTや(Chat)GPTのようなトランスフォーマーベースの言語モデルは、オープンな研究問題を解決するために強力な力を持つ語彙スーパーヒーローとして登場した。
我々は,Word-in-Context(WiC)タスクの2つのダイアクロニック拡張(TempoWiCとHistoWiC)を解く能力を評価する。
論文 参考訳(メタデータ) (2024-01-25T09:36:58Z) - Adventures of Trustworthy Vision-Language Models: A Survey [54.76511683427566]
本稿では,バイス,ロバスト性,解釈可能性の3つの基本原理を用いて,視覚言語変換器の徹底的な検証を行う。
本研究の主な目的は, トランスフォーマーの実用化に伴う複雑さと複雑さを掘り下げることであり, 信頼性と説明責任を高める方法の理解を深めることである。
論文 参考訳(メタデータ) (2023-12-07T11:31:20Z) - Transformer Language Models Handle Word Frequency in Prediction Head [31.145866381881625]
本研究では,予測ヘッドの内部動作について検討し,特にバイアスパラメータに着目した。
BERT モデルと GPT-2 モデルを用いた実験により,単語予測ヘッドのバイアスがコーパス内の単語周波数を反映する能力に重要な役割を果たすことが明らかとなった。
論文 参考訳(メタデータ) (2023-05-29T17:59:15Z) - Collaborative Generative AI: Integrating GPT-k for Efficient Editing in
Text-to-Image Generation [114.80518907146792]
GPT-kのような大規模言語モデルを利用してテキスト・画像生成の迅速な編集プロセスを改善する可能性について検討する。
我々は、人間とGPT-kの共通編集を比較し、T2Iを誘導する際のGPT-kの性能を評価し、このプロセスに影響を与える可能性のある要因を検討する。
論文 参考訳(メタデータ) (2023-05-18T21:53:58Z) - Why Can GPT Learn In-Context? Language Models Implicitly Perform
Gradient Descent as Meta-Optimizers [93.9369467909176]
メタ最適化として言語モデルを説明し、文脈内学習を暗黙の微調整として理解する。
テキスト内学習は、複数の視点からの明示的な微調整と同様の振る舞いを示す。
バニラに対するパフォーマンスの向上は、別の観点からの理解をさらに後押しします。
論文 参考訳(メタデータ) (2022-12-20T18:58:48Z) - Shapley Head Pruning: Identifying and Removing Interference in
Multilingual Transformers [54.4919139401528]
言語固有のパラメータを識別・解析することで干渉を減らすことができることを示す。
固定モデルから同定された注目ヘッドを除去することで、文分類と構造予測の両方において、ターゲット言語の性能が向上することを示す。
論文 参考訳(メタデータ) (2022-10-11T18:11:37Z) - Adapting GPT, GPT-2 and BERT Language Models for Speech Recognition [14.82259273703819]
自動音声認識(ASR)のための微調整GPT, GPT-2とその組み合わせを用いた結果を提案する。
双方向のLM出力に基づいて、正しい言語事前確率を計算するための変換法を提案する。
提案された言語事前確率の変換により、BERT は 3% の相対 WERR を受信できる。
論文 参考訳(メタデータ) (2021-07-29T16:53:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。