論文の概要: Beyond Distributional Hypothesis: Let Language Models Learn Meaning-Text
Correspondence
- arxiv url: http://arxiv.org/abs/2205.03815v1
- Date: Sun, 8 May 2022 08:37:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-11 06:11:38.671539
- Title: Beyond Distributional Hypothesis: Let Language Models Learn Meaning-Text
Correspondence
- Title(参考訳): 分散仮説を超えて:言語モデルが意味-テキスト対応を学ぶ
- Authors: Myeongjun Jang, Frank Mtumbuka, Thomas Lukasiewicz
- Abstract要約: 大規模事前学習言語モデル (PLM) が論理否定特性 (LNP) を満たさないことを示す。
そこで本研究では,意味テキスト対応を直接学習するための新しい中間訓練課題である「意味マッチング」を提案する。
このタスクにより、PLMは語彙意味情報を学習することができる。
- 参考スコア(独自算出の注目度): 45.9949173746044
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The logical negation property (LNP), which implies generating different
predictions for semantically opposite inputs, is an important property that a
trustworthy language model must satisfy. However, much recent evidence shows
that large-size pre-trained language models (PLMs) do not satisfy this
property. In this paper, we perform experiments using probing tasks to assess
PLM's LNP understanding. Unlike previous studies that only examined negation
expressions, we expand the boundary of the investigation to lexical semantics.
Through experiments, we observe that PLMs violate the LNP frequently. To
alleviate the issue, we propose a novel intermediate training task, names
meaning-matching, designed to directly learn a meaning-text correspondence,
instead of relying on the distributional hypothesis. Through multiple
experiments, we find that the task enables PLMs to learn lexical semantic
information. Also, through fine-tuning experiments on 7 GLUE tasks, we confirm
that it is a safe intermediate task that guarantees a similar or better
performance of downstream tasks. Finally, we observe that our proposed approach
outperforms our previous counterparts despite its time and resource efficiency.
- Abstract(参考訳): 論理否定特性(LNP)は、意味論的に反対の入力に対して異なる予測を生成することを示し、信頼できる言語モデルが満たさなければならない重要な特性である。
しかし、近年の証拠は、大規模事前訓練言語モデル(PLM)がこの性質を満足していないことを示している。
本稿では,PLMのLNP理解を評価するために,探索タスクを用いた実験を行う。
否定表現のみを調べる以前の研究とは異なり、調査の境界を語彙意味論に拡張する。
実験により, PLM が LNP に頻繁に違反することが明らかとなった。
この問題を軽減するために, 分布仮説に頼らず, 意味文対応を直接学習するように設計された, 新しい中間訓練タスク「意味マッチング」を提案する。
複数の実験により,PLMが語彙意味情報を学習できることがわかった。
また、7つのGLUEタスクの微調整実験により、下流タスクの類似あるいはより良いパフォーマンスを保証する安全な中間タスクであることを確認した。
最後に,提案手法が時間と資源効率にもかかわらず,従来の手法よりも優れていることを示す。
関連論文リスト
- Improving Language Models Meaning Understanding and Consistency by
Learning Conceptual Roles from Dictionary [65.268245109828]
現代事前訓練言語モデル(PLM)の非人間的行動は、その信頼性を損なう主要な原因である。
驚くべき現象は、矛盾した結果を生み出す不整合予測の生成である。
本研究では,PLMの認知度を向上させることで,一貫性のない行動問題を緩和する実践的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-24T06:15:15Z) - Hypothesis Search: Inductive Reasoning with Language Models [41.36577403707967]
大規模言語モデル(LLM)の帰納的推論能力を改善することを提案する。
我々は LLM に対して,問題に関する複数の抽象的仮説を自然言語で提案し,その後,具体的なPython プログラムとして自然言語仮説を実装した。
我々は、ARC視覚誘導推論ベンチマーク、その変種1D-ARC、文字列変換データセットSyGuSにおけるパイプラインの有効性を検証する。
論文 参考訳(メタデータ) (2023-09-11T17:56:57Z) - CUE: An Uncertainty Interpretation Framework for Text Classifiers Built
on Pre-Trained Language Models [28.750894873827068]
本稿では,PLMモデルに固有の不確かさを解釈することを目的とした,CUEと呼ばれる新しいフレームワークを提案する。
摂動と原文表現の予測不確実性の違いを比較することにより,不確実性の原因となる潜伏次元を同定することができる。
論文 参考訳(メタデータ) (2023-06-06T11:37:46Z) - Sources of Hallucination by Large Language Models on Inference Tasks [16.644096408742325]
大規模言語モデル (LLM) は自然言語推論 (NLI) が可能なと主張している。
本研究は, 制御実験を用いて行動調査を行う複数のLLMファミリーに関する一連の行動学的研究について述べる。
論文 参考訳(メタデータ) (2023-05-23T22:24:44Z) - ADEPT: A DEbiasing PrompT Framework [49.582497203415855]
ファインタニングは文脈化された単語の埋め込みを曖昧にするための応用手法である。
意味的な意味を持つ個別のプロンプトは、タスクを乱すのに有効であることが示されている。
本稿では, PLM をデバイアス化する方法であるADEPT を提案し, バイアス除去と表現能力の確保の微妙なバランスを維持しながら, 即時チューニングによる PLM のデバイアス化手法を提案する。
論文 参考訳(メタデータ) (2022-11-10T08:41:40Z) - Interactive Model with Structural Loss for Language-based Abductive
Reasoning [36.02450824915494]
帰納的自然言語推論タスク(alpha$NLI)は、原因と事象の間の最も明確な説明を推測するために提案される。
我々はこの新モデルを$alpha$NLI: Interactive Model with Structure Loss (IMSL) と命名する。
IMSL は RoBERTa-large Pretrained model で最高性能を達成し,ACC と AUC はそれぞれ約1%,AUC は5% 向上した。
論文 参考訳(メタデータ) (2021-12-01T05:21:07Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z) - Is Supervised Syntactic Parsing Beneficial for Language Understanding?
An Empirical Investigation [71.70562795158625]
従来のNLPは、高レベルセマンティック言語理解(LU)の成功に必要な構文解析を長い間保持(教師付き)してきた。
近年のエンドツーエンドニューラルネットワークの出現、言語モデリング(LM)による自己監視、および幅広いLUタスクにおける成功は、この信念に疑問を投げかけている。
本研究では,LM-Pretrained Transformer Network の文脈における意味的LUに対する教師あり構文解析の有用性を実証的に検討する。
論文 参考訳(メタデータ) (2020-08-15T21:03:36Z) - oLMpics -- On what Language Model Pre-training Captures [84.60594612120173]
本研究では,比較,協調,合成などの操作を必要とする8つの推論タスクを提案する。
基本的な課題は、タスク上でのLMのパフォーマンスが、事前訓練された表現やタスクデータの微調整のプロセスに起因すべきかどうかを理解することである。
論文 参考訳(メタデータ) (2019-12-31T12:11:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。