論文の概要: Transformer Language Models Handle Word Frequency in Prediction Head
- arxiv url: http://arxiv.org/abs/2305.18294v1
- Date: Mon, 29 May 2023 17:59:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 13:34:43.916193
- Title: Transformer Language Models Handle Word Frequency in Prediction Head
- Title(参考訳): 予測頭部における単語頻度の変換言語モデル
- Authors: Goro Kobayashi, Tatsuki Kuribayashi, Sho Yokoi, Kentaro Inui
- Abstract要約: 本研究では,予測ヘッドの内部動作について検討し,特にバイアスパラメータに着目した。
BERT モデルと GPT-2 モデルを用いた実験により,単語予測ヘッドのバイアスがコーパス内の単語周波数を反映する能力に重要な役割を果たすことが明らかとなった。
- 参考スコア(独自算出の注目度): 31.145866381881625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prediction head is a crucial component of Transformer language models.
Despite its direct impact on prediction, this component has often been
overlooked in analyzing Transformers. In this study, we investigate the inner
workings of the prediction head, specifically focusing on bias parameters. Our
experiments with BERT and GPT-2 models reveal that the biases in their word
prediction heads play a significant role in the models' ability to reflect word
frequency in a corpus, aligning with the logit adjustment method commonly used
in long-tailed learning. We also quantify the effect of controlling the biases
in practical auto-regressive text generation scenarios; under a particular
setting, more diverse text can be generated without compromising text quality.
- Abstract(参考訳): 予測ヘッドはトランスフォーマー言語モデルの重要なコンポーネントである。
予測に直接的な影響があるにもかかわらず、このコンポーネントはトランスフォーマーの分析においてしばしば見過ごされてきた。
本研究では,予測ヘッドの内部動作について検討し,特にバイアスパラメータに着目した。
BERT モデルと GPT-2 モデルを用いた実験により,単語予測ヘッドのバイアスがコーパス内の単語周波数を反映する能力に重要な役割を果たすことが明らかとなった。
また, テキスト品質を損なうことなく, より多様なテキストを生成できるという, 実践的自己回帰テキスト生成シナリオにおけるバイアス制御の効果を定量的に評価する。
関連論文リスト
- Linear Recency Bias During Training Improves Transformers' Fit to Reading Times [16.55240473621401]
本稿では,アテンションスコアに付加される電流バイアスであるALiBiを用いたTransformerモデルの変更について検討する。
ALiBiのスロープの混合 -- 各アテンションヘッドのメモリ減衰率を決定する -- は、ALiBiのモデルがさまざまな言語的依存関係を追跡するのを助ける役割を果たす可能性がある。
論文 参考訳(メタデータ) (2024-09-17T14:57:51Z) - Humans and language models diverge when predicting repeating text [52.03471802608112]
我々は,人間とLMのパフォーマンスが分岐するシナリオを提示する。
人間とGPT-2 LMの予測はテキストスパンの最初のプレゼンテーションで強く一致しているが、メモリが役割を担い始めると、その性能は急速にバラバラになる。
このシナリオが,LMを人間の行動に近づける上で,今後の作業に拍車をかけることを期待しています。
論文 参考訳(メタデータ) (2023-10-10T08:24:28Z) - Unlocking Bias Detection: Leveraging Transformer-Based Models for Content Analysis [1.8692054990918079]
CBDT (Contextualized Bi-Directional Dual Transformer) textcolorgreenfaLeaf 分類器を提案する。
テキスト内のバイアスを特定し、特定するために、これらのモデルをトレーニングするためのデータセットを用意しました。
様々なデータセットを用いて評価した結果, CBDT のテキストカラーグリーンの有効性は, 偏りのある物語と中性な物語を区別し, 特定の偏りのある言葉を識別する上で有効であることがわかった。
論文 参考訳(メタデータ) (2023-09-30T12:06:04Z) - Rationalizing Predictions by Adversarial Information Calibration [65.19407304154177]
我々は2つのモデルを共同で訓練する: 1つは、正確だがブラックボックスな方法でタスクを解く典型的なニューラルモデルであり、もう1つは、予測の理論的根拠を付加するセレクタ・予測モデルである。
我々は,2つのモデルから抽出した情報を,それらの違いが欠落した特徴や過度に選択された特徴の指標であるように校正するために,敵対的手法を用いる。
論文 参考訳(メタデータ) (2023-01-15T03:13:09Z) - Why Does Surprisal From Larger Transformer-Based Language Models Provide
a Poorer Fit to Human Reading Times? [9.909170013118775]
トレーニング中にシーケンスを「記憶する」ためにトランスフォーマーをベースとした大規模モデルの妥当性は、その前提推定を人間的な期待から逸脱させる。
これらの結果から,大規模トランスフォーマーモデルがトレーニング中にシーケンスを「記憶する」ことの妥当性は,人為的な予測から逸脱することが示唆された。
論文 参考訳(メタデータ) (2022-12-23T03:57:54Z) - Shapley Head Pruning: Identifying and Removing Interference in
Multilingual Transformers [54.4919139401528]
言語固有のパラメータを識別・解析することで干渉を減らすことができることを示す。
固定モデルから同定された注目ヘッドを除去することで、文分類と構造予測の両方において、ターゲット言語の性能が向上することを示す。
論文 参考訳(メタデータ) (2022-10-11T18:11:37Z) - BERT, can HE predict contrastive focus? Predicting and controlling
prominence in neural TTS using a language model [29.188684861193092]
コントラスト焦点を含む発話に基づいて,音質特性の定量化を図ったBERTモデルの精度を評価する。
また,音響的特徴に基づくTSモデルにおける代名詞長の制御性についても検討した。
論文 参考訳(メタデータ) (2022-07-04T20:43:41Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z) - Experiments with adversarial attacks on text genres [0.0]
BERTやXLM-RoBERTaのような事前学習されたトランスフォーマーに基づくニューラルモデルは、多くのNLPタスクにおいてSOTA結果を示す。
そこで本研究では,最も重要な単語のいくつかを類似した単語に置き換えることができる埋め込み型アルゴリズムが,モデル予測にかなりの割合で影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2021-07-05T19:37:59Z) - Improving Robustness by Augmenting Training Sentences with
Predicate-Argument Structures [62.562760228942054]
データセットバイアスに対するロバスト性を改善する既存のアプローチは、主にトレーニング目標の変更に焦点を当てている。
本稿では,学習データ中の入力文に対応する述語句構造を付加することを提案する。
特定のバイアスを対象とせずに、文の増大は、複数のバイアスに対してトランスフォーマーモデルの堅牢性を向上することを示す。
論文 参考訳(メタデータ) (2020-10-23T16:22:05Z) - Fixed Encoder Self-Attention Patterns in Transformer-Based Machine
Translation [73.11214377092121]
我々は,各エンコーダ層の注意頭数のみを,単純な固定型(非学習型)の注意パターンに置き換えることを提案する。
異なるデータサイズと複数の言語ペアを用いた実験により、トレーニング時にトランスフォーマーのエンコーダ側でアテンションヘッドを固定することは翻訳品質に影響を与えないことが示された。
論文 参考訳(メタデータ) (2020-02-24T13:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。