Fugu-MT 論文翻訳(概要): Beyond Distributional Hypothesis: Let Language Models Learn Meaning-Text Correspondence

論文の概要: Beyond Distributional Hypothesis: Let Language Models Learn Meaning-Text Correspondence

arxiv url: http://arxiv.org/abs/2205.03815v1
Date: Sun, 8 May 2022 08:37:36 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-11 06:11:38.671539
Title: Beyond Distributional Hypothesis: Let Language Models Learn Meaning-Text Correspondence
Title（参考訳）: 分散仮説を超えて:言語モデルが意味-テキスト対応を学ぶ
Authors: Myeongjun Jang, Frank Mtumbuka, Thomas Lukasiewicz
Abstract要約: 大規模事前学習言語モデル (PLM) が論理否定特性 (LNP) を満たさないことを示す。そこで本研究では,意味テキスト対応を直接学習するための新しい中間訓練課題である「意味マッチング」を提案する。このタスクにより、PLMは語彙意味情報を学習することができる。
参考スコア（独自算出の注目度）: 45.9949173746044
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The logical negation property (LNP), which implies generating different predictions for semantically opposite inputs, is an important property that a trustworthy language model must satisfy. However, much recent evidence shows that large-size pre-trained language models (PLMs) do not satisfy this property. In this paper, we perform experiments using probing tasks to assess PLM's LNP understanding. Unlike previous studies that only examined negation expressions, we expand the boundary of the investigation to lexical semantics. Through experiments, we observe that PLMs violate the LNP frequently. To alleviate the issue, we propose a novel intermediate training task, names meaning-matching, designed to directly learn a meaning-text correspondence, instead of relying on the distributional hypothesis. Through multiple experiments, we find that the task enables PLMs to learn lexical semantic information. Also, through fine-tuning experiments on 7 GLUE tasks, we confirm that it is a safe intermediate task that guarantees a similar or better performance of downstream tasks. Finally, we observe that our proposed approach outperforms our previous counterparts despite its time and resource efficiency.
Abstract（参考訳）: 論理否定特性(LNP)は、意味論的に反対の入力に対して異なる予測を生成することを示し、信頼できる言語モデルが満たさなければならない重要な特性である。しかし、近年の証拠は、大規模事前訓練言語モデル(PLM)がこの性質を満足していないことを示している。本稿では,PLMのLNP理解を評価するために,探索タスクを用いた実験を行う。否定表現のみを調べる以前の研究とは異なり、調査の境界を語彙意味論に拡張する。実験により, PLM が LNP に頻繁に違反することが明らかとなった。この問題を軽減するために, 分布仮説に頼らず, 意味文対応を直接学習するように設計された, 新しい中間訓練タスク「意味マッチング」を提案する。複数の実験により,PLMが語彙意味情報を学習できることがわかった。また、7つのGLUEタスクの微調整実験により、下流タスクの類似あるいはより良いパフォーマンスを保証する安全な中間タスクであることを確認した。最後に,提案手法が時間と資源効率にもかかわらず,従来の手法よりも優れていることを示す。

関連論文リスト

Please Translate Again: Two Simple Experiments on Whether Human-Like Reasoning Helps Translation [7.376832526909754]
大きな言語モデル(LLM)は、多くのタスクに対して強力な推論能力を示し、しばしばChain-of-Thought (CoT)推論を通じてタスクを明示的に分解する。 textit Translating Step-by-stepcitepbriakou2024 Translatingは、例えば、LLMによる翻訳の分解と洗練を伴うマルチステッププロンプトを導入している。以上の結果から, LLM の帰納的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的
論文参考訳（メタデータ） (2025-06-05T00:04:39Z)
Aggregation Artifacts in Subjective Tasks Collapse Large Language Models' Posteriors [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理の主要な手法となっている。本研究は,低アグリゲーション,異質なアノテーションを組み合わせたアグリゲーションの結果が,プロンプトに有害なノイズを生じさせるアノテーションのアーティファクトに繋がるかどうかを考察する。この結果から,アグリゲーションは主観的タスクのモデル化において不明瞭な要因であり,代わりに個人をモデリングすることを重視することが示唆された。
論文参考訳（メタデータ） (2024-10-17T17:16:00Z)
Explicit Inductive Inference using Large Language Models [13.767536248988268]
大規模言語モデル(LLM)は、推論タスクに対して望ましくない証明バイアスを負うと報告されている。このバイアスを利用して明示的な帰納的推論を行うパイプラインを提案する。
論文参考訳（メタデータ） (2024-08-26T17:58:17Z)
Latent Causal Probing: A Formal Perspective on Probing with Causal Models of Data [3.376269351435396]
構造因果モデル(SCM)を用いた探索の形式的視点を開発する。我々は,合成グリッドワールドナビゲーションタスクの文脈において,最近のLMの研究を拡張した。我々の手法は、LMがテキストの根底にある潜在概念を誘発する能力を示す、堅牢な実証的な証拠を提供する。
論文参考訳（メタデータ） (2024-07-18T17:59:27Z)
What Do Language Models Learn in Context? The Structured Task Hypothesis [89.65045443150889]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)と呼ばれるデモで提示されたインコンテキストの例から新しいタスクを学習する一般的な仮説の一つは、タスク選択によるICLの説明である。もう一つの一般的な仮説は、ICLはメタ学習の一形態である、すなわち、モデルが事前学習時に学習アルゴリズムを学習し、それを実演に適用する、というものである。
論文参考訳（メタデータ） (2024-06-06T16:15:34Z)
Hypothesis Search: Inductive Reasoning with Language Models [39.03846394586811]
最近の研究は「文脈学習」を直接促すことで帰納的推論タスクにおける大規模言語モデルの評価を行っているこれは単純な帰納的タスクではうまく機能するが、Abstraction and Reasoning Corpus (ARC)のような複雑なタスクではうまく機能しない。本研究では,複数の抽象レベルで明示的な仮説を生成することにより,LLMの帰納的推論能力を向上させることを提案する。
論文参考訳（メタデータ） (2023-09-11T17:56:57Z)
Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文参考訳（メタデータ） (2023-05-24T06:41:09Z)
ADEPT: A DEbiasing PrompT Framework [64.54665501064659]
ファインタニングは文脈化された単語の埋め込みを曖昧にするための応用手法である。意味的な意味を持つ個別のプロンプトは、タスクを乱すのに有効であることが示されている。本稿では, PLM をデバイアス化する方法であるADEPT を提案し, バイアス除去と表現能力の確保の微妙なバランスを維持しながら, 即時チューニングによる PLM のデバイアス化手法を提案する。
論文参考訳（メタデータ） (2022-11-10T08:41:40Z)
Masked Language Modeling and the Distributional Hypothesis: Order Word Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文参考訳（メタデータ） (2021-04-14T06:30:36Z)
Is Supervised Syntactic Parsing Beneficial for Language Understanding? An Empirical Investigation [71.70562795158625]
従来のNLPは、高レベルセマンティック言語理解(LU)の成功に必要な構文解析を長い間保持(教師付き)してきた。近年のエンドツーエンドニューラルネットワークの出現、言語モデリング(LM)による自己監視、および幅広いLUタスクにおける成功は、この信念に疑問を投げかけている。本研究では,LM-Pretrained Transformer Network の文脈における意味的LUに対する教師あり構文解析の有用性を実証的に検討する。
論文参考訳（メタデータ） (2020-08-15T21:03:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。