論文の概要: How Do Neural Sequence Models Generalize? Local and Global Context Cues
for Out-of-Distribution Prediction
- arxiv url: http://arxiv.org/abs/2111.03108v1
- Date: Thu, 4 Nov 2021 19:08:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-09 04:20:42.669253
- Title: How Do Neural Sequence Models Generalize? Local and Global Context Cues
for Out-of-Distribution Prediction
- Title(参考訳): ニューラルシーケンスモデルはどのように一般化するか?
アウトオブディストリビューション予測のための地域とグローバルコンテキストの手がかり
- Authors: Anthony Bau and Jacob Andreas
- Abstract要約: RNNとトランスフォーマー言語モデルは,分布外文脈における構造的,一貫した一般化を示す。
英語、フィンランド語、マンダリン語、およびランダム正規言語における実験において、ニューラルネットワークモデルが一般化の2つの形式の間で相互に交差することを実証する。
- 参考スコア(独自算出の注目度): 35.209150071383796
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: After a neural sequence model encounters an unexpected token, can its
behavior be predicted? We show that RNN and transformer language models exhibit
structured, consistent generalization in out-of-distribution contexts. We begin
by introducing two idealized models of generalization in next-word prediction:
a local context model in which generalization is consistent with the last word
observed, and a global context model in which generalization is consistent with
the global structure of the input. In experiments in English, Finnish,
Mandarin, and random regular languages, we demonstrate that neural language
models interpolate between these two forms of generalization: their predictions
are well-approximated by a log-linear combination of local and global
predictive distributions. We then show that, in some languages, noise mediates
the two forms of generalization: noise applied to input tokens encourages
global generalization, while noise in history representations encourages local
generalization. Finally, we offer a preliminary theoretical explanation of
these results by proving that the observed interpolation behavior is expected
in log-linear models with a particular feature correlation structure. These
results help explain the effectiveness of two popular regularization schemes
and show that aspects of sequence model generalization can be understood and
controlled.
- Abstract(参考訳): ニューラルネットワークモデルが予期せぬトークンに遭遇した後、その振る舞いを予測できるだろうか?
RNNとトランスフォーマー言語モデルは,分布外文脈における構造的,一貫した一般化を示す。
次単語予測における一般化の理想的な2つのモデルの導入から始める: 一般化が観測された最後の単語と一致した局所コンテキストモデルと、一般化が入力のグローバル構造と一致したグローバルコンテキストモデルである。
英語、フィンランド語、マンダリン語、ランダム正規言語の実験では、これらの2つの一般化の形式の間にニューラルネットワークモデルが補間されていることを実証する:それらの予測は局所的および大域的予測分布の対数線形結合によって近似される。
入力トークンに適用されるノイズはグローバルな一般化を促進するが、歴史表現のノイズは局所的な一般化を促進する。
最後に,特定の特徴相関構造を持つ対数線形モデルにおいて観測された補間挙動が期待できることを示すことによって,これらの結果の予備的理論的説明を行う。
これらの結果は、2つの一般的な正規化スキームの有効性を説明し、シーケンスモデルの一般化の側面を理解し制御できることを示す。
関連論文リスト
- Collapsed Language Models Promote Fairness [88.48232731113306]
偏りのある言語モデルはトークン表現と単語埋め込みの間に崩壊したアライメントを示す。
我々は,幅広い脱バイアス法において,公平性を効果的に向上する原理的な微調整法を設計する。
論文 参考訳(メタデータ) (2024-10-06T13:09:48Z) - Evaluating Structural Generalization in Neural Machine Translation [13.880151307013318]
SGETは,単語や文構造を制御して,様々な種類の合成一般化を包含するデータセットである。
ニューラルネットワーク翻訳モデルは、語彙的一般化よりも構造的一般化に苦慮していることを示す。
また、セマンティック解析と機械翻訳において、様々なタスクにおける評価の重要性を示す様々なパフォーマンストレンドを見出した。
論文 参考訳(メタデータ) (2024-06-19T09:09:11Z) - Learning Syntax Without Planting Trees: Understanding When and Why Transformers Generalize Hierarchically [74.96551626420188]
自然言語データに基づいて訓練されたトランスフォーマーは、その階層構造を学習し、目に見えない構文構造を持つ文に一般化することが示されている。
本研究では,変圧器モデルにおける帰納バイアスの発生源と,そのような一般化行動を引き起こす可能性のあるトレーニングについて検討する。
論文 参考訳(メタデータ) (2024-04-25T07:10:29Z) - SLOG: A Structural Generalization Benchmark for Semantic Parsing [68.19511282584304]
合成一般化ベンチマークの目的は、モデルがいかにして新しい複雑な言語表現に一般化するかを評価することである。
既存のベンチマークは、しばしば語彙一般化に焦点を当て、訓練に精通した構文構造における新しい語彙項目の解釈は、しばしば不足している。
SLOGは,COGSを拡張したセマンティック解析データセットである。
論文 参考訳(メタデータ) (2023-10-23T15:39:09Z) - Token-wise Decomposition of Autoregressive Language Model Hidden States
for Analyzing Model Predictions [9.909170013118775]
本研究は,各初期入力トークンに基づいて,自己回帰言語モデルから最終隠れ状態の線形分解を行う。
次単語確率の変化を重要度尺度として、まず、どの文脈語が言語モデル予測に最も貢献するかを検討する。
論文 参考訳(メタデータ) (2023-05-17T23:55:32Z) - Hidden Schema Networks [3.4123736336071864]
帰納的バイアスや明示的関係構造を通じて、新しいニューラルネットワークモデルを導入する。
このモデルは文を記号列にエンコードするが、これは偏りのあるランダム・ウォーカーが訪れたノードに対応する。
このモデルにより,ランダムなトークン列のデータセットから基底構造グラフを抽出できることを示す。
論文 参考訳(メタデータ) (2022-07-08T09:26:19Z) - Predicting the generalization gap in neural networks using topological
data analysis [33.511371257571504]
トポロジカルデータ解析の手法を用いて,ニューラルネットワークの一般化ギャップについて検討する。
トレーニング後のニューロン活性化相関から構築した重み付きグラフのホモロジー永続図を計算する。
持続性図から異なる数値要約の有用性を比較し、それらの組み合わせによって、テストセットを必要とせずに、その一般化ギャップを正確に予測し、部分的に説明できることを示す。
論文 参考訳(メタデータ) (2022-03-23T11:15:36Z) - Disentangled Sequence to Sequence Learning for Compositional
Generalization [62.954842223732435]
本稿では,ソース入力を適応的に再符号化することで,不整合表現の学習を可能にするシーケンス・ツー・シーケンス・モデルの拡張を提案する。
意味解析と機械翻訳の実験結果から,提案手法はより不整合な表現とより優れた一般化をもたらすことが示された。
論文 参考訳(メタデータ) (2021-10-09T22:27:19Z) - Language Model Evaluation Beyond Perplexity [47.268323020210175]
我々は、言語モデルから生成されたテキストが、訓練された人為的なテキストに存在する統計的傾向を示すかどうかを分析する。
ニューラルネットワークモデルは、考慮された傾向のサブセットのみを学習しているように見えるが、提案された理論分布よりも経験的傾向とより密接に一致している。
論文 参考訳(メタデータ) (2021-05-31T20:13:44Z) - Compositional Generalization via Semantic Tagging [81.24269148865555]
本稿では,シーケンス・ツー・シーケンスモデルの表現性と一般性を保存するための新しいデコードフレームワークを提案する。
提案手法は, モデルアーキテクチャ, ドメイン, セマンティックフォーマリズム間の構成一般化を一貫して改善することを示す。
論文 参考訳(メタデータ) (2020-10-22T15:55:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。