Fugu-MT 論文翻訳(概要): More Identifiable yet Equally Performant Transformers for Text Classification

論文の概要: More Identifiable yet Equally Performant Transformers for Text Classification

arxiv url: http://arxiv.org/abs/2106.01269v1
Date: Wed, 2 Jun 2021 16:21:38 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-03 16:56:34.297924
Title: More Identifiable yet Equally Performant Transformers for Text Classification
Title（参考訳）: テキスト分類のためのより識別可能かつ等速なトランスフォーマー
Authors: Rishabh Bhardwaj, Navonil Majumder, Soujanya Poria, Eduard Hovy
Abstract要約: 変圧器の予測は、注意重み、すなわち自己注意単位(頭部)で生じる確率分布によって広く説明される。現在の実証研究は、注意重みが特異でないことを証明することによって説明できないという証拠のシャーレを提供している。頭部への所定の入力とその出力について、注意重みがユニークであれば、重みを識別可能と呼ぶ。我々は、キーと値ベクトルの関係を分離し、入力の所望の長さまで同定可能な重みを与えるエンコーダ層の変種を提供する。
参考スコア（独自算出の注目度）: 13.439554931699695
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Interpretability is an important aspect of the trustworthiness of a model's predictions. Transformer's predictions are widely explained by the attention weights, i.e., a probability distribution generated at its self-attention unit (head). Current empirical studies provide shreds of evidence that attention weights are not explanations by proving that they are not unique. A recent study showed theoretical justifications to this observation by proving the non-identifiability of attention weights. For a given input to a head and its output, if the attention weights generated in it are unique, we call the weights identifiable. In this work, we provide deeper theoretical analysis and empirical observations on the identifiability of attention weights. Ignored in the previous works, we find the attention weights are more identifiable than we currently perceive by uncovering the hidden role of the key vector. However, the weights are still prone to be non-unique attentions that make them unfit for interpretation. To tackle this issue, we provide a variant of the encoder layer that decouples the relationship between key and value vector and provides identifiable weights up to the desired length of the input. We prove the applicability of such variations by providing empirical justifications on varied text classification tasks. The implementations are available at https://github.com/declare-lab/identifiable-transformers.
Abstract（参考訳）: 解釈性はモデルの予測の信頼性の重要な側面である。トランスフォーマーの予測は注意重み、すなわち自己着脱単位(ヘッド)で生成される確率分布によって広く説明される。現在の実証研究は、注意重みが特異でないことを証明することによって説明できないという証拠のシャーレを提供している。最近の研究では、注意重みの非識別性を証明することによって、この観察に対する理論的正当性を示した。ヘッドへの入力とその出力に対して、その中に生成される注意重みがユニークであれば、その重みを識別可能なものとします。本研究では,注目重みの識別可能性に関する理論的解析と実証観察を行う。以前の研究で無視されているように、キーベクトルの隠れた役割を明らかにすることで、現在認識しているよりも注意重みが識別可能である。しかし、重みは、解釈に不適当な非普遍的な注意を向ける傾向にある。この問題に対処するために,キーと値ベクトルの関係を分離し,入力の所望の長さまで識別可能な重みを与えるエンコーダレイヤの変種を提供する。多様なテキスト分類タスクに対して経験的正当化を提供することにより,このようなバリエーションの適用性を証明する。実装はhttps://github.com/declare-lab/identizable-transformersで利用可能である。

関連論文リスト

Why Can Accurate Models Be Learned from Inaccurate Annotations? [48.528799044535155]
誤ったラベルが存在するにもかかわらず、ノイズの多いデータに基づいて訓練されたモデルは、しばしば正確な予測を行う能力を保持する。この興味深い現象は、なぜモデルが不正確なアノテーションから正確なラベル情報を抽出できるのかという根本的な疑問を提起する。ラベルの不正確さによって生じるノイズを軽減しつつ,分類器が主部分空間情報の保持を支援する軽量なプラグインであるLIPを提案する。
論文参考訳（メタデータ） (2025-05-22T03:00:15Z)
Regularization, Semi-supervision, and Supervision for a Plausible Attention-Based Explanation [0.2499907423888049]
実験的な研究は、アテンションマップがモデル出力の説明として提供されることを仮定している。近年の研究では、RNNエンコーダの注意重みが入力トークンに広まるため、ほとんど証明できないことが示されている。注意マップの妥当性を向上させるために,学習対象関数に対する3つの制約を提案する。
論文参考訳（メタデータ） (2025-01-22T10:17:20Z)
An Analysis of Attention via the Lens of Exchangeability and Latent Variable Models [64.87562101662952]
入力トークンは、位置エンコーディングを含むため、しばしば交換可能であることを示す。我々は入力トークンの十分かつ最小限の表現の存在を確立する。所望パラメータの注意が近似誤差まで潜伏した後部を推定することを証明する。
論文参考訳（メタデータ） (2022-12-30T17:59:01Z)
Guiding Visual Question Answering with Attention Priors [76.21671164766073]
本稿では,言語・視覚的接地による注意機構の導出について述べる。この基礎は、クエリ内の構造化言語概念を視覚オブジェクト間の参照物に接続することで導かれる。このアルゴリズムは、注意に基づく推論モデルを調べ、関連する連想的知識を注入し、コア推論プロセスを制御する。
論文参考訳（メタデータ） (2022-05-25T09:53:47Z)
Rethinking Attention-Model Explainability through Faithfulness Violation Test [29.982295060192904]
Attentio$odot$Gradient や LRP ベースのアテンション説明など,現在のアテンションベース手法の説明可能性について検討する。テストされたほとんどの説明手法は、信頼度違反の問題によって予期せぬ障害を受けていることが示される。
論文参考訳（メタデータ） (2022-01-28T13:42:31Z)
Attention cannot be an Explanation [99.37090317971312]
私たちは、人間の信頼と信頼を高める上で、注意に基づく説明がどの程度効果的か尋ねる。我々は,注意に基づく説明が適している程度を質的かつ定量的に評価することを目的とした広範囲な人間実験を行った。実験の結果,注意は説明として利用できないことが明らかとなった。
論文参考訳（メタデータ） (2022-01-26T21:34:05Z)
Is Sparse Attention more Interpretable? [52.85910570651047]
我々は,空間が注意力を説明可能性ツールとして活用する能力にどのように影響するかを検討する。入力とインデックス付き中間表現の間には弱い関係しか存在しません。この設定では、疎度を誘導することで、モデルの振る舞いを理解するためのツールとして注意が使用できることが、より確実になる可能性があることを観察する。
論文参考訳（メタデータ） (2021-06-02T11:42:56Z)
SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文参考訳（メタデータ） (2021-02-25T14:13:44Z)
Why Attentions May Not Be Interpretable? [46.69116768203185]
近年の研究では、注目・重要解釈は期待どおりに機能しないことが多いことが判明した。この現象の根本原因の一つがショートカットであり、注意重み自体が余分な情報を運ぶ可能性があることを示している。この問題を緩和する2つの方法を提案する。
論文参考訳（メタデータ） (2020-06-10T05:08:30Z)
Towards Transparent and Explainable Attention Models [34.0557018891191]
まず,LSTMをベースとしたエンコーダにおける現在の注意機構が,モデルの予測を忠実に,あるいは妥当に説明できない理由を説明する。本研究では,異なる時間ステップで学習した隠れ表現が多様であることを保証するため,多様性駆動型学習目標を持つLSTM細胞を改良した。人的評価は,本モデルが学習した注意分布が,モデルの予測を妥当に説明できることを示唆している。
論文参考訳（メタデータ） (2020-04-29T14:47:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。