論文の概要: Probing for Incremental Parse States in Autoregressive Language Models
- arxiv url: http://arxiv.org/abs/2211.09748v1
- Date: Thu, 17 Nov 2022 18:15:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 15:26:38.727212
- Title: Probing for Incremental Parse States in Autoregressive Language Models
- Title(参考訳): 自己回帰型言語モデルにおけるインクリメンタルParse状態の探索
- Authors: Tiwalayo Eisape, Vineet Gangireddy, Roger P. Levy, Yoon Kim
- Abstract要約: 自己回帰型ニューラルネットワークモデルからの次の単語予測は、構文に対する顕著な感度を示す。
この研究は、漸進的な構文構造の暗黙的な表現を維持する学習能力の結果として、この振る舞いが生じる範囲を評価する。
- 参考スコア(独自算出の注目度): 9.166953511173903
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Next-word predictions from autoregressive neural language models show
remarkable sensitivity to syntax. This work evaluates the extent to which this
behavior arises as a result of a learned ability to maintain implicit
representations of incremental syntactic structures. We extend work in
syntactic probing to the incremental setting and present several probes for
extracting incomplete syntactic structure (operationalized through parse states
from a stack-based parser) from autoregressive language models. We find that
our probes can be used to predict model preferences on ambiguous sentence
prefixes and causally intervene on model representations and steer model
behavior. This suggests implicit incremental syntactic inferences underlie
next-word predictions in autoregressive neural language models.
- Abstract(参考訳): 自己回帰型言語モデルからの次の単語予測は、構文に顕著な感度を示す。
この研究は、インクリメンタル構文構造の暗黙的な表現を維持する学習能力の結果として、この振る舞いが生み出す範囲を評価する。
自動回帰言語モデルから不完全な構文構造(スタックベースパーサから解析状態を介して操作する)を抽出するためのいくつかのプローブを提案する。
提案手法は,曖昧な文接頭辞のモデル嗜好を予測し,モデル表現とステアモデル行動に因果的に介入できることがわかった。
これは、自己回帰型ニューラルネットワークモデルにおいて、次の単語を予測する暗黙的な漸進的な構文推論を示唆している。
関連論文リスト
- Counterfactual Generation from Language Models [64.55296662926919]
対実的推論が介入と概念的に異なることを示す。
そこで本研究では,真の文字列反事実を生成するためのフレームワークを提案する。
我々の実験は、このアプローチが有意義な反事実を生み出すことを示した。
論文 参考訳(メタデータ) (2024-11-11T17:57:30Z) - Token-wise Decomposition of Autoregressive Language Model Hidden States
for Analyzing Model Predictions [9.909170013118775]
本研究は,各初期入力トークンに基づいて,自己回帰言語モデルから最終隠れ状態の線形分解を行う。
次単語確率の変化を重要度尺度として、まず、どの文脈語が言語モデル予測に最も貢献するかを検討する。
論文 参考訳(メタデータ) (2023-05-17T23:55:32Z) - When Does Syntax Mediate Neural Language Model Performance? Evidence
from Dropout Probes [27.70448935595472]
モデルでは, 合成情報を冗長に符号化し, 埋め込みに存在するすべての構文情報を考えるために, プローブをガイドする新しいプローブ設計を導入する。
従来の手法ではそうでなかったモデルにおける構文の使用の証拠を見つけ,構文情報を表現に注入することでモデル性能を向上させることができる。
論文 参考訳(メタデータ) (2022-04-20T18:09:36Z) - Pathologies of Pre-trained Language Models in Few-shot Fine-tuning [50.3686606679048]
実例が少ない事前学習言語モデルはラベル間に強い予測バイアスを示すことを示す。
わずかな微調整で予測バイアスを軽減できるが,本分析では,非タスク関連の特徴を捉えることで,モデルの性能向上を図っている。
これらの観察は、より少ない例でモデルのパフォーマンスを追求することは、病理学的予測行動を引き起こす可能性があることを警告する。
論文 参考訳(メタデータ) (2022-04-17T15:55:18Z) - On The Ingredients of an Effective Zero-shot Semantic Parser [95.01623036661468]
我々は、標準発話とプログラムの訓練例を文法から言い換えて、ゼロショット学習を分析する。
改良された文法,より強力なパラフレーズ,効率的な学習手法を用いて,これらのギャップを埋めることを提案する。
我々のモデルはラベル付きデータゼロの2つの意味解析ベンチマーク(Scholar, Geo)で高い性能を達成する。
論文 参考訳(メタデータ) (2021-10-15T21:41:16Z) - On the Lack of Robust Interpretability of Neural Text Classifiers [14.685352584216757]
本研究では,事前学習したトランスフォーマーエンコーダをベースとしたニューラルテキスト分類器の解釈の堅牢性を評価する。
どちらのテストも、期待された行動から驚くほど逸脱しており、実践者が解釈から引き出す可能性のある洞察の程度について疑問を呈している。
論文 参考訳(メタデータ) (2021-06-08T18:31:02Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z) - Explicitly Modeling Syntax in Language Models with Incremental Parsing
and a Dynamic Oracle [88.65264818967489]
我々は新しい構文認識型言語モデル、Syntactic Ordered Memory (SOM)を提案する。
モデルは、構造をインクリメンタルにモデル化し、標準言語モデルの条件付き確率設定を維持する。
実験により、SOMは言語モデリング、インクリメンタル解析、構文一般化テストにおいて強力な結果が得られることが示された。
論文 参考訳(メタデータ) (2020-10-21T17:39:15Z) - Explaining and Improving Model Behavior with k Nearest Neighbor
Representations [107.24850861390196]
モデルの予測に責任のあるトレーニング例を特定するために, k 近傍表現を提案する。
我々は,kNN表現が学習した素因関係を明らかにするのに有効であることを示す。
以上の結果から,kNN手法により,直交モデルが逆入力に対してより堅牢であることが示唆された。
論文 参考訳(メタデータ) (2020-10-18T16:55:25Z) - Linguistically inspired morphological inflection with a sequence to
sequence model [19.892441884896893]
我々の研究課題は、ニューラルネットワークが反射生成のための屈折形態を学習できるかどうかである。
我々は、この仮説をテストするために、屈折コーパスと単一の層Seq2seqモデルを使用している。
キャラクタ・ツー・キャラクタとインフレクションアフィクスをキャラクタブロックとして予測することにより,文字形態に基づくモデルでインフレクションを生成する。
論文 参考訳(メタデータ) (2020-09-04T08:58:42Z) - Overestimation of Syntactic Representationin Neural Language Models [16.765097098482286]
構文構造を誘導するモデルの能力を決定する一般的な方法の1つは、テンプレートに従って生成された文字列上でモデルを訓練し、それらの文字列と表面的に類似した文字列を異なる構文で区別するモデルの能力をテストすることである。
本稿では,2つの非シンタクティックなベースライン言語モデルを用いた最近の論文の肯定的な結果を再現することで,このアプローチの根本的な問題を説明する。
論文 参考訳(メタデータ) (2020-04-10T15:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。