論文の概要: Can You Learn Semantics Through Next-Word Prediction? The Case of
Entailment
- arxiv url: http://arxiv.org/abs/2402.13956v2
- Date: Thu, 29 Feb 2024 22:18:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-04 13:40:54.181913
- Title: Can You Learn Semantics Through Next-Word Prediction? The Case of
Entailment
- Title(参考訳): セマンティックスを次の単語予測で学べるか?
エンターメントの事例
- Authors: William Merrill and Zhaofeng Wu and Norihito Naka and Yoon Kim and Tal
Linzen
- Abstract要約: Merrillらは、理論上、最適なLMによって予測される確率は、包含関係に関する意味情報を符号化すると主張している。
本稿では,その理論がニューラルネットワークから係り受け判定を復号化するのに有効かどうかを考察する。
- 参考スコア(独自算出の注目度): 39.511615297904626
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Do LMs infer the semantics of text from co-occurrence patterns in their
training data? Merrill et al. (2022) argue that, in theory, probabilities
predicted by an optimal LM encode semantic information about entailment
relations, but it is unclear whether neural LMs trained on corpora learn
entailment in this way because of strong idealizing assumptions made by Merrill
et al. In this work, we investigate whether their theory can be used to decode
entailment judgments from neural LMs. We find that a test similar to theirs can
decode entailment relations between natural sentences, well above random
chance, though not perfectly, across many datasets and LMs. This suggests LMs
implicitly model aspects of semantics to predict semantic effects on sentence
co-occurrence patterns. However, we find the test that predicts entailment in
practice works in the opposite direction to the theoretical test. We thus
revisit the assumptions underlying the original test, finding its derivation
did not adequately account for redundancy in human-written text. We argue that
correctly accounting for redundancy related to explanations might derive the
observed flipped test and, more generally, improve linguistic theories of human
speakers.
- Abstract(参考訳): LMはトレーニングデータ中の共起パターンからテキストの意味を推測するだろうか?
Merrill et al. (2022) は、理論上、最適LMにより予測される確率は、包含関係に関する意味情報を符号化するが、Merrill et al による強い理想化仮定のため、コーポラで訓練された神経的LMが、この方法で包含を学習するかどうかは不明である。
そこで本研究では,その理論がニューラルネットワークから係り受け判定を復号するために有効かどうかを考察する。
彼らのテストに似たテストは、多くのデータセットとlmsで、ランダムな確率をはるかに上回っても、自然文間の関係をデコードできることがわかりました。
これは、lmsが暗黙的に意味論の側面をモデル化し、文の共起パターンに対する意味的効果を予測することを示唆する。
しかし,実際に係り受けを予測できるテストは理論テストとは反対の方向に働くことがわかった。
そこで,本研究では,原本テストの前提となる仮定を再検討し,その導出が人間の文章の冗長性を十分に考慮していないことを発見した。
説明に関係した冗長性を正しく説明することは、観察されたフリップテストの結果であり、より一般的には、人間の話者の言語理論を改善する可能性があると論じる。
関連論文リスト
- Markovian Agents for Truthful Language Modeling [0.9642500063568188]
CoT(Chain-of-Thought)推論は原則として、言語モデルの内部推論をより深く理解することを可能にする。
以前の研究は、いくつかのLMがCoTの変更にもかかわらず同様の質問に答えていることを示唆しており、これらのモデルがCoTを真に使っているわけではないことを示唆している。
本稿では,他の文脈に依存しない将来のテキストを予測するのに十分なCoTを生成するためのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-04-29T17:36:58Z) - A Hypothesis-Driven Framework for the Analysis of Self-Rationalising
Models [0.8702432681310401]
我々はベイジアンネットワークを用いて、タスクの解決方法に関する仮説を実装している。
結果のモデルはGPT-3.5と強い類似性は示さない。
今後の作業において、LCM決定をよりよく近似するフレームワークの可能性だけでなく、これの意味についても論じる。
論文 参考訳(メタデータ) (2024-02-07T12:26:12Z) - Improving Language Models Meaning Understanding and Consistency by
Learning Conceptual Roles from Dictionary [65.268245109828]
現代事前訓練言語モデル(PLM)の非人間的行動は、その信頼性を損なう主要な原因である。
驚くべき現象は、矛盾した結果を生み出す不整合予測の生成である。
本研究では,PLMの認知度を向上させることで,一貫性のない行動問題を緩和する実践的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-24T06:15:15Z) - Phenomenal Yet Puzzling: Testing Inductive Reasoning Capabilities of Language Models with Hypothesis Refinement [92.61557711360652]
言語モデル(LM)は、しばしば帰納的推論に不足する。
我々は,反復的仮説修正を通じて,LMの帰納的推論能力を体系的に研究する。
本研究は, LMの誘導的推論過程と人間とのいくつかの相違点を明らかにし, 誘導的推論タスクにおけるLMの使用の可能性と限界に光を当てる。
論文 参考訳(メタデータ) (2023-10-12T17:51:10Z) - Prototype-based Aleatoric Uncertainty Quantification for Cross-modal
Retrieval [139.21955930418815]
クロスモーダル検索手法は、共通表現空間を共同学習することにより、視覚と言語モダリティの類似性関係を構築する。
しかし、この予測は、低品質なデータ、例えば、腐敗した画像、速いペースの動画、詳細でないテキストによって引き起こされるアレタリック不確実性のために、しばしば信頼性が低い。
本稿では, 原型に基づくAleatoric Uncertainity Quantification (PAU) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T09:41:19Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z) - Beyond Distributional Hypothesis: Let Language Models Learn Meaning-Text
Correspondence [45.9949173746044]
大規模事前学習言語モデル (PLM) が論理否定特性 (LNP) を満たさないことを示す。
そこで本研究では,意味テキスト対応を直接学習するための新しい中間訓練課題である「意味マッチング」を提案する。
このタスクにより、PLMは語彙意味情報を学習することができる。
論文 参考訳(メタデータ) (2022-05-08T08:37:36Z) - The Language Model Understood the Prompt was Ambiguous: Probing
Syntactic Uncertainty Through Generation [23.711953448400514]
このような分析に対して,ニューラルネットワークモデル(LM)がどの程度不確実性を示すかを調べる。
LMは複数の解析を同時に追跡できることがわかった。
曖昧な手がかりに対する応答として、LMは正しい解釈を選択することが多いが、時々エラーは改善の潜在的な領域を示す。
論文 参考訳(メタデータ) (2021-09-16T10:27:05Z) - HypoNLI: Exploring the Artificial Patterns of Hypothesis-only Bias in
Natural Language Inference [38.14399396661415]
仮説のみのバイアスの観点から、逆例を導出する。
このような仮説のみのバイアスを軽減するために、人工パターンモデリングを利用する2つのデバイアス手法について検討する。
論文 参考訳(メタデータ) (2020-03-05T16:46:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。