論文の概要: Language model acceptability judgements are not always robust to context
- arxiv url: http://arxiv.org/abs/2212.08979v1
- Date: Sun, 18 Dec 2022 00:11:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 14:49:58.063843
- Title: Language model acceptability judgements are not always robust to context
- Title(参考訳): 言語モデル受容性判断は必ずしも文脈にロバストではない
- Authors: Koustuv Sinha, Jon Gauthier, Aaron Mueller, Kanishka Misra, Keren
Fuentes, Roger Levy, Adina Williams
- Abstract要約: 目標構文評価における言語モデルの性能の安定性について検討する。
モデル判断は、ランダムにサンプル化された言語コンテキストに置かれる場合、一般的には堅牢である。
これらのモデル性能の変化は、コンテキストとテスト入力にマッチする単純な特徴によって説明できないことを示す。
- 参考スコア(独自算出の注目度): 30.868765627701457
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Targeted syntactic evaluations of language models ask whether models show
stable preferences for syntactically acceptable content over minimal-pair
unacceptable inputs. Most targeted syntactic evaluation datasets ask models to
make these judgements with just a single context-free sentence as input. This
does not match language models' training regime, in which input sentences are
always highly contextualized by the surrounding corpus. This mismatch raises an
important question: how robust are models' syntactic judgements in different
contexts? In this paper, we investigate the stability of language models'
performance on targeted syntactic evaluations as we vary properties of the
input context: the length of the context, the types of syntactic phenomena it
contains, and whether or not there are violations of grammaticality. We find
that model judgements are generally robust when placed in randomly sampled
linguistic contexts. However, they are substantially unstable for contexts
containing syntactic structures matching those in the critical test content.
Among all tested models (GPT-2 and five variants of OPT), we significantly
improve models' judgements by providing contexts with matching syntactic
structures, and conversely significantly worsen them using unacceptable
contexts with matching but violated syntactic structures. This effect is
amplified by the length of the context, except for unrelated inputs. We show
that these changes in model performance are not explainable by simple features
matching the context and the test inputs, such as lexical overlap and
dependency overlap. This sensitivity to highly specific syntactic features of
the context can only be explained by the models' implicit in-context learning
abilities.
- Abstract(参考訳): 言語モデルの構文的評価は、最小対の許容できない入力よりも構文的に許容されるコンテンツの安定的な嗜好を示すかどうかを問う。
ほとんどのターゲットとなる構文評価データセットは、入力として単一の文脈自由文でこれらの判断を行うようモデルに求める。
これは、入力文が常に周囲のコーパスによって高度に文脈化される言語モデルの訓練体制と一致しない。
このミスマッチは重要な疑問を提起する: 異なるコンテキストにおけるモデルの構文判断はどの程度堅牢か?
本稿では, 言語モデルの性能が, 文脈の長さ, 含んでいる構文現象の種類, 文法性に違反があるか否か, など, 入力コンテキストの特性によって異なる場合, 対象の構文評価に対する安定性について検討する。
ランダムにサンプル化された言語コンテキストに配置すると、モデル判断は概して堅牢である。
しかし、重要なテスト内容と一致する構文構造を含む文脈では、かなり不安定である。
すべての試験モデル (GPT-2 と OPT の5変種) の中で, 一致した構文構造を持つコンテキストを提供することで, モデルの判断を著しく改善し, 一致しないが構文構造に反するコンテキストを用いて, 逆に有意に悪化させた。
この効果は、無関係な入力を除いて、文脈の長さによって増幅される。
これらのモデル性能の変化は、語彙重なりや依存性重なりなど、コンテキストとテストインプットにマッチする単純な機能によって説明できないことを示す。
この文脈の特定の構文的特徴に対する感度は、モデル内の暗黙的な学習能力によってのみ説明できる。
関連論文リスト
- Investigating Idiomaticity in Word Representations [9.208145117062339]
我々は2つの言語(英語とポルトガル語)における様々な水準の慣用性を持つ名詞に焦点をあてる。
そこで本研究では,各名詞の音韻性判定を含む最小対のデータセットについて,タイプレベルとトークンレベルの両方で示す。
AffinityとScaled similarityの詳細なメトリクスセットを定義し、モデルが慣用性の変化につながる可能性のある摂動に対してどれほど敏感であるかを判断する。
論文 参考訳(メタデータ) (2024-11-04T21:05:01Z) - How Well Do Text Embedding Models Understand Syntax? [50.440590035493074]
テキスト埋め込みモデルが幅広い構文的文脈にまたがって一般化する能力は、まだ解明されていない。
その結果,既存のテキスト埋め込みモデルは,これらの構文的理解課題に十分対応していないことが明らかとなった。
多様な構文シナリオにおけるテキスト埋め込みモデルの一般化能力を高めるための戦略を提案する。
論文 参考訳(メタデータ) (2023-11-14T08:51:00Z) - Quantifying the Plausibility of Context Reliance in Neural Machine
Translation [25.29330352252055]
我々は、PECoRe(Context Reliance)の可塑性評価を導入する。
PECoReは、言語モデル世代におけるコンテキスト使用量の定量化を目的として設計されたエンドツーエンドの解釈可能性フレームワークである。
我々は、文脈対応機械翻訳モデルの妥当性を定量化するために、pecoreを使用します。
論文 参考訳(メタデータ) (2023-10-02T13:26:43Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - BenchCLAMP: A Benchmark for Evaluating Language Models on Syntactic and
Semantic Parsing [55.058258437125524]
本稿では,制約付きLanguage Model Parsingを評価するベンチマークであるBenchCLAMPを紹介する。
APIを通じてのみ利用可能な2つのGPT-3変種を含む8つの言語モデルをベンチマークする。
実験により,エンコーダ-デコーダ事前学習言語モデルでは,モデル出力が有効であると制約された場合に,構文解析や意味解析の最先端手法を超えることができることがわかった。
論文 参考訳(メタデータ) (2022-06-21T18:34:11Z) - Does BERT really agree ? Fine-grained Analysis of Lexical Dependence on
a Syntactic Task [70.29624135819884]
目的の構文テンプレート上で,BERTが語彙非依存の主観値数アグリーメント(NA)を実行できる範囲について検討した。
名詞文では,単純なテンプレートに対してモデルがよく一般化されるが,1つのアトラクターが存在する場合,語彙非依存の構文一般化を行うことができないことが示唆された。
論文 参考訳(メタデータ) (2022-04-14T11:33:15Z) - On The Ingredients of an Effective Zero-shot Semantic Parser [95.01623036661468]
我々は、標準発話とプログラムの訓練例を文法から言い換えて、ゼロショット学習を分析する。
改良された文法,より強力なパラフレーズ,効率的な学習手法を用いて,これらのギャップを埋めることを提案する。
我々のモデルはラベル付きデータゼロの2つの意味解析ベンチマーク(Scholar, Geo)で高い性能を達成する。
論文 参考訳(メタデータ) (2021-10-15T21:41:16Z) - Recurrent Neural Network Language Models Always Learn English-Like
Relative Clause Attachment [17.995905582226463]
英語とスペイン語のモデル性能を比較し,RNN LMにおける非言語的バイアスが英語の構文構造と有利に重なることを示す。
英語モデルは人間に似た構文的嗜好を習得しているように見えるが、スペイン語で訓練されたモデルは、同等の人間的な嗜好を取得できない。
論文 参考訳(メタデータ) (2020-05-01T01:21:47Z) - Attribution Analysis of Grammatical Dependencies in LSTMs [0.043512163406551986]
LSTM言語モデルは、構文に敏感な文法的依存関係を高い精度で捉えることが示されている。
本研究は, モデルが他の名詞と区別する能力と, 数値一致におけるLSTM性能が直接相関していることを示す。
この結果から,LSTM言語モデルが構文依存の頑健な表現を推論できることが示唆された。
論文 参考訳(メタデータ) (2020-04-30T19:19:37Z) - Don't Judge an Object by Its Context: Learning to Overcome Contextual
Bias [113.44471186752018]
既存のモデルは、認識精度を向上させるために、オブジェクトとそのコンテキスト間の共起を利用することが多い。
この研究は、学習した特徴表現の堅牢性を改善するために、そのような文脈バイアスに対処することに焦点を当てている。
論文 参考訳(メタデータ) (2020-01-09T18:31:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。