Fugu-MT 論文翻訳(概要): Interpreting Key Mechanisms of Factual Recall in Transformer-Based Language Models

論文の概要: Interpreting Key Mechanisms of Factual Recall in Transformer-Based Language Models

arxiv url: http://arxiv.org/abs/2403.19521v1
Date: Thu, 28 Mar 2024 15:54:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-29 15:34:50.632341
Title: Interpreting Key Mechanisms of Factual Recall in Transformer-Based Language Models
Title（参考訳）: 変圧器に基づく言語モデルにおけるファクチュアルリコールのメカニズムの解釈
Authors: Ang Lv, Kaiyi Zhang, Yuhan Chen, Yulong Wang, Lifeng Liu, Ji-Rong Wen, Jian Xie, Rui Yan,
Abstract要約: 本稿では,Transformer ベースの言語モデルを用いて,実際のリコールタスクに使用するメカニズムについて検討する。ゼロショットのシナリオでは、"The capital of France is"のようなプロンプトが与えられ、タスク固有の注意がトピックを抽出し、後続のドメインに渡す。モデルの最終層に広く存在するメカニズムを観察し、正しい予測を抑える。
参考スコア（独自算出の注目度）: 68.83330172211315
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we deeply explore the mechanisms employed by Transformer-based language models in factual recall tasks. In zero-shot scenarios, given a prompt like "The capital of France is," task-specific attention heads extract the topic entity, such as "France," from the context and pass it to subsequent MLPs to recall the required answer such as "Paris." We introduce a novel analysis method aimed at decomposing the outputs of the MLP into components understandable by humans. Through this method, we quantify the function of the MLP layer following these task-specific heads. In the residual stream, it either erases or amplifies the information originating from individual heads. Moreover, it generates a component that redirects the residual stream towards the direction of its expected answer. These zero-shot mechanisms are also employed in few-shot scenarios. Additionally, we observed a widely existent anti-overconfidence mechanism in the final layer of models, which suppresses correct predictions. We mitigate this suppression by leveraging our interpretation to improve factual recall performance. Our interpretations have been evaluated across various language models, from the GPT-2 families to 1.3B OPT, and across tasks covering different domains of factual knowledge.
Abstract（参考訳）: 本稿では,トランスフォーマーに基づく言語モデルを用いて,現実的なリコールタスクにおいて採用されるメカニズムについて深く検討する。ゼロショットのシナリオでは、"The capital of France is"のようなプロンプトが与えられた場合、タスク固有のアテンションヘッドは、コンテキストから"France"のようなトピックエンティティを抽出し、"Paris"のような要求された回答をリコールするために後続のMLPに渡す。本稿では,MLPの出力を人間によって理解可能なコンポーネントに分解することを目的とした新しい分析手法を提案する。本手法により,これらのタスク固有ヘッドに追従するMLP層の関数を定量化する。残留ストリームでは、個々のヘッドから派生した情報を消去または増幅する。さらに、残りのストリームを期待する回答の方向に向けてリダイレクトするコンポーネントを生成する。これらのゼロショット機構は、数ショットのシナリオでも使用される。さらに、モデルの最終層に広く存在する反過信機構を観察し、正しい予測を抑える。我々はこの抑制を、現実のリコール性能を改善するために解釈を活用することで緩和する。我々の解釈は GPT-2 family から 1.3B OPT まで様々な言語モデルで評価されてきた。

関連論文リスト

Noiser: Bounded Input Perturbations for Attributing Large Language Models [17.82404809465846]
本稿では,各入力埋め込みに有界雑音を課す摂動型FA法であるノイズ器を紹介する。ノイズは、信頼度と応答性の両方の観点から、既存の勾配、注意に基づく、摂動に基づくFA法を一貫して上回っていることを実証する。
論文参考訳（メタデータ） (2025-04-03T10:59:37Z)
The Probabilities Also Matter: A More Faithful Metric for Faithfulness of Free-Text Explanations in Large Language Models [24.144513068228903]
本稿では,インプット介入に基づく信頼度テストに使用できる指標である相関説明忠実度(CEF)について紹介する。我々の測定基準は、モデルが予測するラベル分布の総シフトを考慮に入れている。次に, 相関対実テスト(CCT)を導入し, 相関対実テスト(CEF)をインスタンス化する。
論文参考訳（メタデータ） (2024-04-04T04:20:04Z)
Linguistic-Based Mild Cognitive Impairment Detection Using Informative Loss [2.8893654860442872]
我々は,I-CONECT研究プロジェクト内で収集された映像インタビューから生成されたテキストを解析するフレームワークを提案する。我々のフレームワークは、平均面積84.75%のMCIとNCを区別することができる。
論文参考訳（メタデータ） (2024-01-23T16:30:22Z)
Pushing the Limits of ChatGPT on NLP Tasks [79.17291002710517]
ChatGPTの成功にもかかわらず、ほとんどのNLPタスクのパフォーマンスは教師付きベースラインよりかなり低い。そこで本研究では,原因を調べた結果,以下の要因が原因であることが判明した。 NLPタスクにおけるChatGPTの限界を押し上げるために,これらの問題に対処する汎用モジュールの集合を提案する。
論文参考訳（メタデータ） (2023-06-16T09:40:05Z)
Multi-resolution Interpretation and Diagnostics Tool for Natural Language Classifiers [0.0]
本稿では,意味論的に相互に関連のある単語のセグメントやクラスタによって,よりフレキシブルなモデル説明可能性要約を作成することを目的とする。さらに,NLPモデルの根本原因分析手法を提案し,各セグメントのFalse PositiveとFalse Negativeを解析した。
論文参考訳（メタデータ） (2023-03-06T22:59:02Z)
SpArX: Sparse Argumentative Explanations for Neural Networks [Technical Report] [14.787292425343527]
我々は、多層パーセプトロン(MLP)と定量的議論フレームワーク(QAF)の関係を利用して、ニューラルネットワーク(NN)の力学に関する議論的な説明を作成する。当社のSpArX法は,まず,元の構造をできるだけ多く維持しながらスパースを分散させ,その後に翻訳し,グローバルおよび/またはローカルな説明を生成する。実験により、SpArXは既存のアプローチよりも忠実に説明でき、同時にニューラルネットワークの実際の推論プロセスについて深い洞察を提供する。
論文参考訳（メタデータ） (2023-01-23T17:20:25Z)
Efficient Language Modeling with Sparse all-MLP [53.81435968051093]
すべてのMLPは、言語モデリングにおいてTransformerと一致するが、下流タスクではまだ遅れている。特徴量と入力量の両方でMoE(Mix-of-Experts)を混合したスパースオールMLPを提案する。 6つの下流タスクにおいて、ゼロショットのインコンテキスト学習性能を評価し、トランスフォーマーベースのMoEや高密度トランスフォーマーを上回る結果を得た。
論文参考訳（メタデータ） (2022-03-14T04:32:19Z)
Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文参考訳（メタデータ） (2021-02-09T10:55:27Z)
Is Supervised Syntactic Parsing Beneficial for Language Understanding? An Empirical Investigation [71.70562795158625]
従来のNLPは、高レベルセマンティック言語理解(LU)の成功に必要な構文解析を長い間保持(教師付き)してきた。近年のエンドツーエンドニューラルネットワークの出現、言語モデリング(LM)による自己監視、および幅広いLUタスクにおける成功は、この信念に疑問を投げかけている。本研究では,LM-Pretrained Transformer Network の文脈における意味的LUに対する教師あり構文解析の有用性を実証的に検討する。
論文参考訳（メタデータ） (2020-08-15T21:03:36Z)
Trojaning Language Models for Fun and Profit [53.45727748224679]
TROJAN-LMは、悪質に製作されたLMがホストNLPシステムを故障させる新しいタイプのトロイの木馬攻撃である。セキュリティクリティカルなNLPタスクにおいて、3つの最先端のLMを実証的に研究することにより、TROJAN-LMが以下の特性を持つことを示す。
論文参考訳（メタデータ） (2020-08-01T18:22:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。