論文の概要: Exploring the Residual Stream of Transformers
- arxiv url: http://arxiv.org/abs/2312.12141v1
- Date: Tue, 19 Dec 2023 13:23:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 15:42:26.416554
- Title: Exploring the Residual Stream of Transformers
- Title(参考訳): 変圧器の残留流れの探索
- Authors: Zeping Yu, Kailai Yang, Zhiwei Liu, Sophia Ananiadou
- Abstract要約: 近年、トランスフォーマーベースのモデルは大きなブレークスルーを遂げている。
次の単語を予測するための知識を格納しているモデルの重要なパラメータを見つける方法がわからない。
本稿では,変圧器の残流を探索し,解釈可能性を高める。
- 参考スコア(独自算出の注目度): 26.663145272634992
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based models have achieved great breakthroughs in recent years.
However, there are many significant questions that have not been answered in
the field of explaining the reason why the models have powerful outputs. We do
not know how to locate the models' important parameters storing the knowledge
for predicting the next word, and whether these parameters are stored on the
same layer/module or different ones. Moreover, we do not understand the
mechanism to merge the knowledge into the final embedding for next word
prediction. In this paper, we explore the residual stream of transformers to
increase the interpretability. We find the mechanism behind residual connection
is a direct addition function on before-softmax values, so the probabilities of
tokens with larger before-softmax values will increase. Moreover, we prove that
using log probability increase as contribution scores is reasonable, and based
on this we can locate important parameters. Besides, we propose a method to
analyze how previous layers affect upper layers by comparing the inner
products. The experimental results and case study show that our research can
increase the interpretability of transformer-based models. We will release our
code on https://github.com/zepingyu0512/residualstream.
- Abstract(参考訳): 近年、トランスフォーマーベースのモデルは大きなブレークスルーを遂げている。
しかし、モデルが強力な出力を持つ理由を説明する分野では、多くの重要な疑問が答えられていない。
我々は、次の単語を予測する知識を格納しているモデルの重要なパラメータの特定方法や、これらのパラメータが同じレイヤ/モジュールに格納されているかどうかを知らない。
さらに、次の単語予測のために知識を最終埋め込みにマージするメカニズムも理解していない。
本稿では,変圧器の残流を探索し,解釈可能性を高める。
残差接続のメカニズムは,前ソフトマックス値に対する直接加算関数であるため,前ソフトマックス値が大きいトークンの確率は増加する。
さらに,ログ確率を寄与点として用いることは合理的であり,これに基づいて重要なパラメータを同定できることを示す。
また,前層が上層層にどう影響するかを内層製品の比較により解析する手法を提案する。
実験結果とケーススタディにより,本研究はトランスフォーマーモデルの解釈性を高めることができることを示した。
コードはhttps://github.com/zepingyu0512/residualstreamでリリースします。
関連論文リスト
- How Large Language Models Encode Context Knowledge? A Layer-Wise Probing
Study [27.23388511249688]
本稿では,知識を符号化する大規模言語モデルのレイヤーワイド能力について検討する。
探索データセットの構築にはChatGPTの強力な生成能力を活用する。
矛盾する知識と新たに獲得した知識の実験は、LLMが上位層でより多くのコンテキスト知識をエンコードすることを好んでいることを示している。
論文 参考訳(メタデータ) (2024-02-25T11:15:42Z) - Backward Lens: Projecting Language Model Gradients into the Vocabulary
Space [94.85922991881242]
勾配行列は、その前方および後方の入力の低ランク線形結合としてキャスト可能であることを示す。
次に、これらの勾配を語彙項目に投影する手法を開発し、新しい情報がLMのニューロンにどのように格納されているかのメカニズムを探索する。
論文 参考訳(メタデータ) (2024-02-20T09:57:08Z) - Empirical Study on Updating Key-Value Memories in Transformer
Feed-forward Layers [27.636372947415186]
トランスにおけるフィードフォワードネットワーク(FFN)は、抽象的な高レベルの知識を復元するキーバリューニューラルメモリのグループとして認識される。
我々は、キー(FFNs層の第1層)または値の更新に関する実証的アブレーション研究を行う。
我々はこれらの2つの手法を、様々な知識編集と大規模言語モデルの微調整タスクで比較し、FFNの理解を深めるために洞察を引き出す。
論文 参考訳(メタデータ) (2024-02-19T15:42:54Z) - Optimal Transport Posterior Alignment for Cross-lingual Semantic Parsing [68.47787275021567]
言語間のセマンティックパーシングは、高いソース言語(例えば英語)から少ないトレーニングデータを持つ低リソース言語へのパーシング能力を伝達する。
そこで本稿では,最適輸送を用いた係り受け変数間の言語間相違を明示的に最小化することで,言語間セマンティック解析のための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-09T04:52:31Z) - Attention-likelihood relationship in transformers [2.8304391396200064]
我々は、大言語モデル(LLM)が文脈外単語をどのように表現しているかを分析し、その意味を捉えるために、与えられた文脈への依存を調査する。
我々の可能性誘導型テキスト摂動は、トランスフォーマーベース言語モデルにおけるトークン確率と注意値の相関関係を明らかにする。
論文 参考訳(メタデータ) (2023-03-15T00:23:49Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - Transformer Feed-Forward Layers Build Predictions by Promoting Concepts
in the Vocabulary Space [49.029910567673824]
トランスフォーマーベース言語モデル(LM)は現代のNLPの中核にあるが、内部予測構築プロセスは不透明であり、ほとんど理解されていない。
我々は、フィードフォワードネットワーク(FFN)層の動作をリバースエンジニアリングすることで、この基盤となる予測プロセスの公開に向けて大きな一歩を踏み出した。
論文 参考訳(メタデータ) (2022-03-28T12:26:00Z) - Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese
Pre-trained Language Models [62.41139712595334]
中国語のための新しい事前学習パラダイムであるLattice-BERTを提案する。
文中の文字や単語から格子グラフを構築し、これらすべてのテキスト単位をトランスフォーマーに供給します。
本モデルが12層設定で平均1.5%の増加をもたらすことを示した。
論文 参考訳(メタデータ) (2021-04-15T02:36:49Z) - Static Embeddings as Efficient Knowledge Bases? [6.166295570030645]
10言語の多様な言語の実験では、静的埋め込みに含まれる知識を研究します。
出力空間を候補集合に制限する場合、静的埋め込みを用いた単純な近接マッチングの方がPLMよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-14T19:42:20Z) - Funnel-Transformer: Filtering out Sequential Redundancy for Efficient
Language Processing [112.2208052057002]
本稿では,隠れ状態の列を短く圧縮するFunnel-Transformerを提案する。
Funnel-TransformerはFLOPに匹敵する数が少ないため、様々なシーケンスレベルの予測タスクにおいて標準のTransformerよりも優れている。
論文 参考訳(メタデータ) (2020-06-05T05:16:23Z) - Do sequence-to-sequence VAEs learn global features of sentences? [13.43800646539014]
本研究では,列列列構造を用いた自然言語用可変国語オートエンコーダ(VAE)について検討する。
VAEは最初の単語と文章の長さを記憶する傾向があり、限られた有用性を持つ局所的な特徴を生み出す。
これらの変種はよりグローバルな潜在変数、すなわちトピックや感情ラベルをより予測的に学習する。
論文 参考訳(メタデータ) (2020-04-16T14:43:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。