論文の概要: Feed-Forward Blocks Control Contextualization in Masked Language Models
- arxiv url: http://arxiv.org/abs/2302.00456v1
- Date: Wed, 1 Feb 2023 13:59:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-02 12:58:09.071899
- Title: Feed-Forward Blocks Control Contextualization in Masked Language Models
- Title(参考訳): マスキング言語モデルにおけるフィードフォワード制御の文脈化
- Authors: Goro Kobayashi, Tatsuki Kuribayashi, Sho Yokoi, Kentaro Inui
- Abstract要約: トランスフォーマーベースのモデルは、最近の自然言語処理のコアである。
我々は、フィードフォワードブロックを含む全てのコンポーネントを考慮し、内部のコンテキスト化を分析する。
- 参考スコア(独自算出の注目度): 31.145866381881625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding the inner workings of neural network models is a crucial step
for rationalizing their output and refining their architecture.
Transformer-based models are the core of recent natural language processing and
have been analyzed typically with attention patterns as their epoch-making
feature is contextualizing surrounding input words via attention mechanisms. In
this study, we analyze their inner contextualization by considering all the
components, including the feed-forward block (i.e., a feed-forward layer and
its surrounding residual and normalization layers) as well as the attention.
Our experiments with masked language models show that each of the previously
overlooked components did modify the degree of the contextualization in case of
processing special word-word pairs (e.g., consisting of named entities).
Furthermore, we find that some components cancel each other's effects. Our
results could update the typical view about each component's roles (e.g.,
attention performs contextualization, and the other components serve different
roles) in the Transformer layer.
- Abstract(参考訳): ニューラルネットワークモデルの内部動作を理解することは、その出力を合理化し、アーキテクチャを洗練するための重要なステップである。
トランスフォーマーベースのモデルは最近の自然言語処理の中核であり、その画期的な特徴として、アテンションメカニズムを通じて入力語を取り巻くコンテキスト化があるため、アテンションパターンで分析されている。
本研究では,フィードフォワードブロック(フィードフォワード層とその周辺残留層および正規化層)を含むすべての構成要素を考慮し,その内的コンテクスト化を分析し,注意を喚起する。
マスク付き言語モデルを用いた実験により,従来見過ごされていた各コンポーネントが,特別な単語対(名前付きエンティティなど)を処理する場合の文脈化の程度を変更したことが示された。
さらに、一部のコンポーネントはお互いの効果をキャンセルしている。
私たちの結果は、Transformer層における各コンポーネントの役割(例えば、注意がコンテキスト化を行い、他のコンポーネントが異なる役割を果たす)に関する典型的なビューを更新します。
関連論文リスト
- Differential Transformer [99.5117269150629]
トランスフォーマーは、無関係な文脈に注意を向ける傾向がある。
Diff Transformerを導入し、ノイズをキャンセルしながら関連するコンテキストに注意を向ける。
ロングコンテキストモデリング、キー情報検索、幻覚緩和、インコンテキスト学習、アクティベーションアウトリーの削減など、実用的な応用において顕著な利点がある。
論文 参考訳(メタデータ) (2024-10-07T17:57:38Z) - DAPE V2: Process Attention Score as Feature Map for Length Extrapolation [63.87956583202729]
我々は特徴写像としての注意を概念化し、コンピュータビジョンにおける処理方法を模倣するために畳み込み演算子を適用した。
様々な注意関係のモデルに適応できる新しい洞察は、現在のTransformerアーキテクチャがさらなる進化の可能性があることを示している。
論文 参考訳(メタデータ) (2024-10-07T07:21:49Z) - An Efficient and Effective Transformer Decoder-Based Framework for Multi-Task Visual Grounding [17.855998090452058]
トランスフォーマーデコーダをベースとした,効率的なマルチタスクビジュアルグラウンドティングフレームワークを提案する。
言語的側面では、言語的特徴がメモリとして入力され、視覚的特徴がクエリとして入力される、視覚的特徴と言語的特徴を融合するためにTransformer Decoderを使用します。
視覚的側面では、注目スコアに基づく背景視覚トークンを排除し、パラメータフリーで計算を削減できる手法を導入する。
論文 参考訳(メタデータ) (2024-08-02T09:01:05Z) - Verb Conjugation in Transformers Is Determined by Linear Encodings of
Subject Number [24.248659219487976]
動詞を共役するBERTの能力は、主語数の線形符号化に依存していることを示す。
この符号化は、第1の層における主語位置と最終の層における動詞位置にあるが、中間の層における位置に分散している。
論文 参考訳(メタデータ) (2023-10-23T17:53:47Z) - Holistically Explainable Vision Transformers [136.27303006772294]
本稿では,B-cos変換器を提案する。
具体的には、各モデルコンポーネント(多層パーセプトロン、注意層、トークン化モジュールなど)を動的線形に定式化する。
提案した設計をViT(Vision Transformers)に適用し,Bcos-ViTと呼ばれるモデルが高解釈可能であり,ベースラインのViTと競合することを示す。
論文 参考訳(メタデータ) (2023-01-20T16:45:34Z) - Part-guided Relational Transformers for Fine-grained Visual Recognition [59.20531172172135]
識別的特徴を学習し,特徴変換モジュールとの相関関係を探索するフレームワークを提案する。
提案手法は,3-of-the-levelオブジェクト認識において,部分ブランチの追加に頼らず,最先端の性能に達する。
論文 参考訳(メタデータ) (2022-12-28T03:45:56Z) - Demystify Self-Attention in Vision Transformers from a Semantic
Perspective: Analysis and Application [21.161850569358776]
自己認識機構はコンピュータビジョンや自然言語処理など多くの分野で大きな成功を収めている。
多くの既存の視覚変換器(ViT)は、単に視覚タスクに適応するためにNLPから固有のトランスフォーマー設計を施している。
本稿では,低レベル表現を中間レベル空間にマッピングする典型的な画像処理手法を提案する。
論文 参考訳(メタデータ) (2022-11-13T15:18:31Z) - Improving Attention-Based Interpretability of Text Classification
Transformers [7.027858121801477]
テキスト分類における変圧器の注意に基づく解釈可能性手法の有効性について検討する。
適切な設定で、最新技術に匹敵する結果が得られるようなタスクに注意を向けることが示される。
論文 参考訳(メタデータ) (2022-09-22T09:19:22Z) - Incorporating Residual and Normalization Layers into Analysis of Masked
Language Models [29.828669678974983]
我々は、トランスフォーマーの分析範囲を、単に注目パターンから注目ブロック全体まで拡張する。
トランスフォーマーをベースとしたマスキング言語モデルの解析により,トークンとトークンの相互作用が従来想定されていた中間表現にほとんど影響を与えないことが分かる。
論文 参考訳(メタデータ) (2021-09-15T08:32:20Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - Feature Pyramid Transformer [121.50066435635118]
我々は、FPT(Feature Pyramid Transformer)と呼ばれる、空間とスケールの双方で完全にアクティブな特徴相互作用を提案する。
FPTは任意の特徴ピラミッドを同じ大きさの他の特徴ピラミッドに変換するが、よりリッチなコンテキストを持つ。
我々は、インスタンスレベル(オブジェクト検出とインスタンスセグメンテーション)とピクセルレベルのセグメンテーションタスクの両方で広範な実験を行う。
論文 参考訳(メタデータ) (2020-07-18T15:16:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。