論文の概要: Beyond Distributional Hypothesis: Let Language Models Learn Meaning-Text
Correspondence
- arxiv url: http://arxiv.org/abs/2205.03815v1
- Date: Sun, 8 May 2022 08:37:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-11 06:11:38.671539
- Title: Beyond Distributional Hypothesis: Let Language Models Learn Meaning-Text
Correspondence
- Title(参考訳): 分散仮説を超えて:言語モデルが意味-テキスト対応を学ぶ
- Authors: Myeongjun Jang, Frank Mtumbuka, Thomas Lukasiewicz
- Abstract要約: 大規模事前学習言語モデル (PLM) が論理否定特性 (LNP) を満たさないことを示す。
そこで本研究では,意味テキスト対応を直接学習するための新しい中間訓練課題である「意味マッチング」を提案する。
このタスクにより、PLMは語彙意味情報を学習することができる。
- 参考スコア(独自算出の注目度): 45.9949173746044
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The logical negation property (LNP), which implies generating different
predictions for semantically opposite inputs, is an important property that a
trustworthy language model must satisfy. However, much recent evidence shows
that large-size pre-trained language models (PLMs) do not satisfy this
property. In this paper, we perform experiments using probing tasks to assess
PLM's LNP understanding. Unlike previous studies that only examined negation
expressions, we expand the boundary of the investigation to lexical semantics.
Through experiments, we observe that PLMs violate the LNP frequently. To
alleviate the issue, we propose a novel intermediate training task, names
meaning-matching, designed to directly learn a meaning-text correspondence,
instead of relying on the distributional hypothesis. Through multiple
experiments, we find that the task enables PLMs to learn lexical semantic
information. Also, through fine-tuning experiments on 7 GLUE tasks, we confirm
that it is a safe intermediate task that guarantees a similar or better
performance of downstream tasks. Finally, we observe that our proposed approach
outperforms our previous counterparts despite its time and resource efficiency.
- Abstract(参考訳): 論理否定特性(LNP)は、意味論的に反対の入力に対して異なる予測を生成することを示し、信頼できる言語モデルが満たさなければならない重要な特性である。
しかし、近年の証拠は、大規模事前訓練言語モデル(PLM)がこの性質を満足していないことを示している。
本稿では,PLMのLNP理解を評価するために,探索タスクを用いた実験を行う。
否定表現のみを調べる以前の研究とは異なり、調査の境界を語彙意味論に拡張する。
実験により, PLM が LNP に頻繁に違反することが明らかとなった。
この問題を軽減するために, 分布仮説に頼らず, 意味文対応を直接学習するように設計された, 新しい中間訓練タスク「意味マッチング」を提案する。
複数の実験により,PLMが語彙意味情報を学習できることがわかった。
また、7つのGLUEタスクの微調整実験により、下流タスクの類似あるいはより良いパフォーマンスを保証する安全な中間タスクであることを確認した。
最後に,提案手法が時間と資源効率にもかかわらず,従来の手法よりも優れていることを示す。
関連論文リスト
- Aggregation Artifacts in Subjective Tasks Collapse Large Language Models' Posteriors [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理の主要な手法となっている。
本研究は,低アグリゲーション,異質なアノテーションを組み合わせたアグリゲーションの結果が,プロンプトに有害なノイズを生じさせるアノテーションのアーティファクトに繋がるかどうかを考察する。
この結果から,アグリゲーションは主観的タスクのモデル化において不明瞭な要因であり,代わりに個人をモデリングすることを重視することが示唆された。
論文 参考訳(メタデータ) (2024-10-17T17:16:00Z) - Explicit Inductive Inference using Large Language Models [13.767536248988268]
大規模言語モデル(LLM)は、推論タスクに対して望ましくない証明バイアスを負うと報告されている。
このバイアスを利用して明示的な帰納的推論を行うパイプラインを提案する。
論文 参考訳(メタデータ) (2024-08-26T17:58:17Z) - Latent Causal Probing: A Formal Perspective on Probing with Causal Models of Data [3.376269351435396]
構造因果モデル(SCM)を用いた探索の形式的視点を開発する。
我々は,合成グリッドワールドナビゲーションタスクの文脈において,最近のLMの研究を拡張した。
我々の手法は、LMがテキストの根底にある潜在概念を誘発する能力を示す、堅牢な実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-07-18T17:59:27Z) - What Do Language Models Learn in Context? The Structured Task Hypothesis [89.65045443150889]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)と呼ばれるデモで提示されたインコンテキストの例から新しいタスクを学習する
一般的な仮説の一つは、タスク選択によるICLの説明である。
もう一つの一般的な仮説は、ICLはメタ学習の一形態である、すなわち、モデルが事前学習時に学習アルゴリズムを学習し、それを実演に適用する、というものである。
論文 参考訳(メタデータ) (2024-06-06T16:15:34Z) - Hypothesis Search: Inductive Reasoning with Language Models [39.03846394586811]
最近の研究は「文脈学習」を直接促すことで帰納的推論タスクにおける大規模言語モデルの評価を行っている
これは単純な帰納的タスクではうまく機能するが、Abstraction and Reasoning Corpus (ARC)のような複雑なタスクではうまく機能しない。
本研究では,複数の抽象レベルで明示的な仮説を生成することにより,LLMの帰納的推論能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-09-11T17:56:57Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z) - Is Supervised Syntactic Parsing Beneficial for Language Understanding?
An Empirical Investigation [71.70562795158625]
従来のNLPは、高レベルセマンティック言語理解(LU)の成功に必要な構文解析を長い間保持(教師付き)してきた。
近年のエンドツーエンドニューラルネットワークの出現、言語モデリング(LM)による自己監視、および幅広いLUタスクにおける成功は、この信念に疑問を投げかけている。
本研究では,LM-Pretrained Transformer Network の文脈における意味的LUに対する教師あり構文解析の有用性を実証的に検討する。
論文 参考訳(メタデータ) (2020-08-15T21:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。