論文の概要: Language Models Use Monotonicity to Assess NPI Licensing
- arxiv url: http://arxiv.org/abs/2105.13818v1
- Date: Fri, 28 May 2021 13:32:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-31 17:03:00.646537
- Title: Language Models Use Monotonicity to Assess NPI Licensing
- Title(参考訳): NPIライセンス評価にモノトニック性を使用する言語モデル
- Authors: Jaap Jumelet, Milica Deni\'c, Jakub Szymanik, Dieuwke Hupkes, Shane
Steinert-Threlkeld
- Abstract要約: 言語モデル(LM)の意味的知識について検討する。
本研究は、これらのLMが意味的単調性特性に基づいて言語環境のカテゴリを作成するかどうか、およびこれらのカテゴリが人間の言語理解と同様の役割を担っているかどうかに焦点を当てる。
- 参考スコア(独自算出の注目度): 8.856422030608188
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the semantic knowledge of language models (LMs), focusing on
(1) whether these LMs create categories of linguistic environments based on
their semantic monotonicity properties, and (2) whether these categories play a
similar role in LMs as in human language understanding, using negative polarity
item licensing as a case study. We introduce a series of experiments consisting
of probing with diagnostic classifiers (DCs), linguistic acceptability tasks,
as well as a novel DC ranking method that tightly connects the probing results
to the inner workings of the LM. By applying our experimental pipeline to LMs
trained on various filtered corpora, we are able to gain stronger insights into
the semantic generalizations that are acquired by these models.
- Abstract(参考訳): 言語モデル (LM) の意味的知識について検討し,(1) 言語モデルが意味的単調性特性に基づいて言語環境のカテゴリを作成するか否か,(2) 言語理解において,負極性項目のライセンスを事例として,これらのカテゴリが人間の言語理解に類似した役割を担っているかを検討する。
診断分類器 (DC) を用いた探索, 言語受容性タスク, および探索結果をLMの内部動作に密に結合する新しいDCランキング手法を紹介する。
実験パイプラインを様々なフィルタコーパスで訓練したLMに適用することにより、これらのモデルによって得られる意味一般化についてより深い知見を得ることができる。
関連論文リスト
- Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Language-Specific Neurons: The Key to Multilingual Capabilities in Large
Language Models [122.25217086389425]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。
LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。
以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文 参考訳(メタデータ) (2024-02-26T09:36:05Z) - On the Semantics of LM Latent Space: A Vocabulary-defined Approach [29.55309950026882]
本稿では,LM潜在空間内で参照フレームを確立する語彙定義セマンティクスを提案する。
我々のアプローチは、モデル中心の洞察にLM語彙を活用する、事前の絡み合った分析を超越する。
また,ロジットを計算し,微分可能性や局所等方性を重視した新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-29T14:29:48Z) - Probing Structured Semantics Understanding and Generation of Language
Models via Question Answering [56.610044062739256]
本研究では,人間が構築した形式言語を用いて質問応答のタスクにおいて,大規模言語モデルが構造化意味論に対処する能力について検討する。
異なる大きさのモデルと異なる形式言語を用いた実験は、今日の最先端のLLMの論理形式に対する理解が全体的な人間レベルにアプローチできることを示している。
結果は、モデルが異なる形式言語にかなり敏感であることを示している。
論文 参考訳(メタデータ) (2024-01-11T09:27:50Z) - Evaluating Neural Language Models as Cognitive Models of Language
Acquisition [4.779196219827507]
我々は、ニューラルネットワークモデルの構文能力を評価するための最も顕著なベンチマークは、十分に厳密でないかもしれないと論じる。
小規模データモデリングによる子言語習得を訓練すると、LMは単純なベースラインモデルで容易にマッチングできる。
子どもの言語習得に関する実証的研究と、LMをよりよく結びつけるための提案をまとめて締めくくった。
論文 参考訳(メタデータ) (2023-10-31T00:16:17Z) - Probing LLMs for Joint Encoding of Linguistic Categories [10.988109020181563]
大規模言語モデル(LLM)における言語カテゴリーの合同符号化をテストするためのフレームワークを提案する。
関連音声(POS)クラスと異なる(POSクラスと関連する構文依存関係)言語階層の双方で共同符号化の証拠を見いだした。
論文 参考訳(メタデータ) (2023-10-28T12:46:40Z) - Language models are not naysayers: An analysis of language models on
negation benchmarks [58.32362243122714]
我々は,次世代自動回帰言語モデルによる否定処理能力の評価を行った。
LLMには,否定の存在に対する感受性,否定の語彙的意味を捉える能力の欠如,否定下での推論の失敗など,いくつかの制限があることが示されている。
論文 参考訳(メタデータ) (2023-06-14T01:16:37Z) - Augmented Language Models: a Survey [55.965967655575454]
この調査は、言語モデル(LM)が推論スキルとツールの使用能力で強化されているかのレビューを行う。
私たちはこれらをAugmented Language Models (ALMs)と呼ぶ。
トークンの目的の欠如により、ALMは標準的な自然言語タスクを実行しながら、推論、ツールの使用、さらには行動を学ぶことができる。
論文 参考訳(メタデータ) (2023-02-15T18:25:52Z) - Large Language Models Are Latent Variable Models: Explaining and Finding
Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。
本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文 参考訳(メタデータ) (2023-01-27T18:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。