論文の概要: Linear Recency Bias During Training Improves Transformers' Fit to Reading Times
- arxiv url: http://arxiv.org/abs/2409.11250v1
- Date: Tue, 17 Sep 2024 14:57:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 16:13:34.009498
- Title: Linear Recency Bias During Training Improves Transformers' Fit to Reading Times
- Title(参考訳): トレーニング中のリニアリカレンシバイアスは、トランスフォーマーのフィットを読書時間に改善する
- Authors: Christian Clark, Byung-Doh Oh, William Schuler,
- Abstract要約: 本稿では,アテンションスコアに付加される電流バイアスであるALiBiを用いたTransformerモデルの変更について検討する。
ALiBiのスロープの混合 -- 各アテンションヘッドのメモリ減衰率を決定する -- は、ALiBiのモデルがさまざまな言語的依存関係を追跡するのを助ける役割を果たす可能性がある。
- 参考スコア(独自算出の注目度): 16.55240473621401
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent psycholinguistic research has compared human reading times to surprisal estimates from language models to study the factors shaping human sentence processing difficulty. Previous studies have shown a strong fit between surprisal values from Transformers and reading times. However, standard Transformers work with a lossless representation of the entire previous linguistic context, unlike models of human language processing that include memory decay. To bridge this gap, this paper evaluates a modification of the Transformer model that uses ALiBi (Press et al., 2022), a recency bias added to attention scores. Surprisal estimates with ALiBi show an improved fit to human reading times compared to a standard Transformer baseline. A subsequent analysis of attention heads suggests that ALiBi's mixture of slopes -- which determine the rate of memory decay in each attention head -- may play a role in the improvement by helping models with ALiBi to track different kinds of linguistic dependencies.
- Abstract(参考訳): 近年の心理言語学的研究は、人間の読解時間と言語モデルからの予備的な推定とを比較し、人間の文章処理の難しさを形作る要因について研究している。
従来の研究は、トランスフォーマーの副次的価値と読書時間との間に強い適合性を示してきた。
しかし、標準的なトランスフォーマーは、メモリ崩壊を含む人間の言語処理のモデルとは異なり、以前の言語コンテキスト全体の損失のない表現で動作する。
このギャップを埋めるために,ALiBi (Press et al , 2022) を用いたTransformerモデルの修正を行った。
ALiBiによる推定は、標準的なTransformerベースラインと比較して、人間の読み出し時間に適している。
その後のアテンションヘッドの分析では、ALiBiのスロープの混合 -- それぞれのアテンションヘッドのメモリ減衰率を決定する -- が、ALiBiのモデルがさまざまな種類の言語的依存関係を追跡するのを助けることで、改善に重要な役割を果たしている可能性が示唆されている。
関連論文リスト
- Differential Transformer [99.5117269150629]
トランスフォーマーは、無関係な文脈に注意を向ける傾向がある。
Diff Transformerを導入し、ノイズをキャンセルしながら関連するコンテキストに注意を向ける。
ロングコンテキストモデリング、キー情報検索、幻覚緩和、インコンテキスト学習、アクティベーションアウトリーの削減など、実用的な応用において顕著な利点がある。
論文 参考訳(メタデータ) (2024-10-07T17:57:38Z) - Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。
両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。
我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文 参考訳(メタデータ) (2024-05-10T17:11:31Z) - Transformers for Low-Resource Languages:Is F\'eidir Linn! [2.648836772989769]
一般に、ニューラルネットワークモデルは訓練データが不十分な言語ペアで実行されることが多い。
適切なパラメータを選択することで、パフォーマンスが大幅に向上することを示す。
Transformer最適化モデルでは,ベースラインRNNモデルと比較してBLEUスコアが7.8ポイント向上した。
論文 参考訳(メタデータ) (2024-03-04T12:29:59Z) - Transformer Language Models Handle Word Frequency in Prediction Head [31.145866381881625]
本研究では,予測ヘッドの内部動作について検討し,特にバイアスパラメータに着目した。
BERT モデルと GPT-2 モデルを用いた実験により,単語予測ヘッドのバイアスがコーパス内の単語周波数を反映する能力に重要な役割を果たすことが明らかとなった。
論文 参考訳(メタデータ) (2023-05-29T17:59:15Z) - Why Does Surprisal From Larger Transformer-Based Language Models Provide
a Poorer Fit to Human Reading Times? [9.909170013118775]
トレーニング中にシーケンスを「記憶する」ためにトランスフォーマーをベースとした大規模モデルの妥当性は、その前提推定を人間的な期待から逸脱させる。
これらの結果から,大規模トランスフォーマーモデルがトレーニング中にシーケンスを「記憶する」ことの妥当性は,人為的な予測から逸脱することが示唆された。
論文 参考訳(メタデータ) (2022-12-23T03:57:54Z) - A Length-Extrapolatable Transformer [98.54835576985664]
長さ外挿、すなわち短いテキストのトレーニングに焦点をあて、長いシーケンスを評価します。
注目度を最大化するために,相対的な位置埋め込みを導入する。
言語モデルを用いてトランスフォーマーの変種を評価する。
論文 参考訳(メタデータ) (2022-12-20T18:56:20Z) - On the Effect of Pre-training for Transformer in Different Modality on
Offline Reinforcement Learning [0.0]
本研究は,トランスフォーマーモデルからムジョコのオフライン強化学習タスクへの微調整に,言語や視覚などの異なるモーダルデータの事前学習がどのような影響を及ぼすかを検討する。
論文 参考訳(メタデータ) (2022-11-17T13:34:08Z) - Shapley Head Pruning: Identifying and Removing Interference in
Multilingual Transformers [54.4919139401528]
言語固有のパラメータを識別・解析することで干渉を減らすことができることを示す。
固定モデルから同定された注目ヘッドを除去することで、文分類と構造予測の両方において、ターゲット言語の性能が向上することを示す。
論文 参考訳(メタデータ) (2022-10-11T18:11:37Z) - Incorporating Residual and Normalization Layers into Analysis of Masked
Language Models [29.828669678974983]
我々は、トランスフォーマーの分析範囲を、単に注目パターンから注目ブロック全体まで拡張する。
トランスフォーマーをベースとしたマスキング言語モデルの解析により,トークンとトークンの相互作用が従来想定されていた中間表現にほとんど影響を与えないことが分かる。
論文 参考訳(メタデータ) (2021-09-15T08:32:20Z) - Improving Cross-Lingual Reading Comprehension with Self-Training [62.73937175625953]
現在の最新モデルは、いくつかのベンチマークで人間のパフォーマンスを上回っています。
前作では、ゼロショットのクロスリンガル読解のための事前訓練された多言語モデルの能力を明らかにしている。
本稿では,ラベルのないデータを利用して性能を向上する。
論文 参考訳(メタデータ) (2021-05-08T08:04:30Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。