論文の概要: Garden-Path Traversal within GPT-2
- arxiv url: http://arxiv.org/abs/2205.12302v1
- Date: Tue, 24 May 2022 18:21:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-29 04:28:00.222042
- Title: Garden-Path Traversal within GPT-2
- Title(参考訳): gpt-2におけるガーデンパストラバーサル
- Authors: William Jurayj, William Rudman, Carsten Eickhoff
- Abstract要約: 本稿では,GPT-2の隠れ状態を分析する手法を提案する。
隠れ状態間のマンハッタン距離と余弦的類似度を測定することで、GPT-2はモデル出力のみから予測する従来の方法よりも直感的にこれらの文をナビゲートすることを示す。
- 参考スコア(独自算出の注目度): 9.206472654209517
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, massive language models consisting exclusively of
transformer decoders, led by the GPT-x family, have become increasingly
popular. While studies have examined the behavior of these models, they tend to
only focus on the output of the language model, avoiding analyzing their
internal states despite such analyses being popular tools used within BERTology
to study transformer encoders. We present a collection of methods for analyzing
GPT-2's hidden states, and use the model's navigation of garden path sentences
as a case study to demonstrate the utility of studying this model's behavior
beyond its output alone. To support this analysis, we introduce a novel dataset
consisting of 3 different types of garden path sentences, along with scripts to
manipulate them. We find that measuring Manhattan distances and cosine
similarities between hidden states shows that GPT-2 navigates these sentences
more intuitively than conventional methods that predict from the model's output
alone.
- Abstract(参考訳): 近年、GPT-xファミリーが率いるトランスフォーマーデコーダのみで構成される大規模な言語モデルが人気を博している。
研究はこれらのモデルの振舞いを調べたが、それらは言語モデルの出力にのみ焦点をあてる傾向にあり、その分析はBERTologyで使われているトランスフォーマーエンコーダの研究ツールであるにもかかわらず、内部状態の分析を避ける傾向にある。
本稿では, GPT-2 の隠れ状態を分析する手法の集合について述べるとともに, 園芸パス文のナビゲーションをケーススタディとして用いて, 出力のみを超えて, このモデルの振舞いを研究することの有用性を実証する。
この分析を支援するために,3種類の庭道文とそれを操作するスクリプトからなる新しいデータセットを提案する。
隠れ状態間のマンハッタン距離と余弦的類似度を測定することで、GPT-2はモデル出力のみから予測する従来の方法よりも直感的にこれらの文をナビゲートすることを示す。
関連論文リスト
- How Language Models Prioritize Contextual Grammatical Cues? [3.9790222241649587]
複数のジェンダーキュー語が存在する場合、言語モデルがジェンダー合意をどのように扱うかを検討する。
この結果から,エンコーダベースのモデルとデコーダベースのモデルでは,予測にコンテキスト情報を優先し,使用する方法に顕著な違いが認められた。
論文 参考訳(メタデータ) (2024-10-04T14:09:05Z) - Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。
両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。
我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文 参考訳(メタデータ) (2024-05-10T17:11:31Z) - Detecting out-of-distribution text using topological features of transformer-based language models [0.5735035463793009]
本稿では,トランスフォーマーに基づく言語モデルからの自己注意マップのトポロジ的特徴を利用して,入力テキストの分布外の検出を行う。
BERT に対する我々のアプローチを評価し,従来の OOD アプローチと比較した。
以上の結果から,本手法はCLS埋め込みよりも優れており,ドメイン内分布サンプルとドメイン外分布サンプルを区別するが,ほぼ同一あるいは同一のデータセットと競合することを示す。
論文 参考訳(メタデータ) (2023-11-22T02:04:35Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - SentimentGPT: Exploiting GPT for Advanced Sentiment Analysis and its
Departure from Current Machine Learning [5.177947445379688]
本研究は,感情分析における各種生成事前変換器(GPT)手法の徹底的な検討である。
1) 先進型GPT-3.5ターボを用いた迅速なエンジニアリング,2) 微調整型GPTモデル,3) 組込み分類への革新的アプローチの3つの戦略が採用されている。
この研究は、これらの戦略と個々のGPTモデルの間で詳細な比較洞察を与え、そのユニークな強みと潜在的な制限を明らかにしている。
論文 参考訳(メタデータ) (2023-07-16T05:33:35Z) - Leveraging Pre-trained Models for Failure Analysis Triplets Generation [0.0]
我々は、故障解析トリプレット(FAT)を生成する下流タスクにおいて、トランスフォーマーモデルのような事前訓練された因果言語モデルの注意機構を活用する。
生成事前学習型変換器2(GPT2)は、故障解析三重項生成(FATG)タスクにおいて、他の変換器モデルよりも優れていた。
特に, GPT2(1.5Bパラメータで学習)は, ROUGEにおいて, トレーニング済みBERT, BART, GPT3よりも高い性能を示した。
論文 参考訳(メタデータ) (2022-10-31T17:21:15Z) - Analyzing Transformers in Embedding Space [59.434807802802105]
学習したトランスフォーマーの全てのパラメータを埋め込み空間に投影することで解釈する理論解析を提案する。
予め訓練されたモデルと微調整されたモデルの両方のパラメータを埋め込み空間で解釈できることを示す。
我々の発見は、少なくとも部分的には、モデル仕様から抽象化し、埋め込み空間でのみ動作する解釈手法への扉を開く。
論文 参考訳(メタデータ) (2022-09-06T14:36:57Z) - LM-Debugger: An Interactive Tool for Inspection and Intervention in
Transformer-Based Language Models [40.900708012575336]
我々は、トランスフォーマーベース言語モデル(LM)のためのインタラクティブデバッガツール、LM-Debuggerを紹介した。
モデルの内部予測プロセスのきめ細かい解釈と、LMの振る舞いを介入するための強力なフレームワークを提供する。
LM-Debuggerは,ネットワーク内のいくつかのベクトルを識別することにより,モデルの振る舞いをユーザの選択方向にシフトさせるのがいかに容易かを示す。
論文 参考訳(メタデータ) (2022-04-26T07:51:25Z) - What do Toothbrushes do in the Kitchen? How Transformers Think our World
is Structured [137.83584233680116]
本稿では,トランスフォーマーに基づく言語モデルがオブジェクト関係に関する知識を抽出するのにどの程度役立つかを検討する。
異なる類似度尺度と組み合わせたモデルが,抽出できる知識の量で大きく異なることを示す。
驚くべきことに、静的モデルは、コンテキスト化されたモデルと同様に、ほぼ同じようにパフォーマンスします。
論文 参考訳(メタデータ) (2022-04-12T10:00:20Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z) - Evaluating natural language processing models with generalization
metrics that do not need access to any training or testing data [66.11139091362078]
本稿では,Hugingface から事前学習した大規模トランスフォーマーに対して,一般化指標を用いた最初のモデル選択結果を提案する。
ニッチな状況にもかかわらず、ヘビーテール(HT)の観点から派生したメトリクスは、特にNLPタスクにおいて有用である。
論文 参考訳(メタデータ) (2022-02-06T20:07:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。