論文の概要: Experimental Pragmatics with Machines: Testing LLM Predictions for the Inferences of Plain and Embedded Disjunctions
- arxiv url: http://arxiv.org/abs/2405.05776v1
- Date: Thu, 9 May 2024 13:54:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-10 13:23:01.073511
- Title: Experimental Pragmatics with Machines: Testing LLM Predictions for the Inferences of Plain and Embedded Disjunctions
- Title(参考訳): 機械を用いた実験プラグマティクス:平面および埋め込み接合の推論のためのLLM予測の検証
- Authors: Polina Tsvilodub, Paul Marty, Sonia Ramotowska, Jacopo Romoli, Michael Franke,
- Abstract要約: 本研究では, 平板および埋込み接合の3つの推論に焦点をあて, 通常のスカラー不整形と比較する。
この比較を,最先端の大規模言語モデルの予測の新しい視点から検討する。
最高のパフォーマンスモデルの結果は、主に人間のものと一致しており、それらの推論と不適応の大きな違いと、それらの推論の異なる側面の微妙な区別の両方で見られます。
- 参考スコア(独自算出の注目度): 4.753535328327316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human communication is based on a variety of inferences that we draw from sentences, often going beyond what is literally said. While there is wide agreement on the basic distinction between entailment, implicature, and presupposition, the status of many inferences remains controversial. In this paper, we focus on three inferences of plain and embedded disjunctions, and compare them with regular scalar implicatures. We investigate this comparison from the novel perspective of the predictions of state-of-the-art large language models, using the same experimental paradigms as recent studies investigating the same inferences with humans. The results of our best performing models mostly align with those of humans, both in the large differences we find between those inferences and implicatures, as well as in fine-grained distinctions among different aspects of those inferences.
- Abstract(参考訳): 人間のコミュニケーションは、私たちが文章から引き出す様々な推論に基づいており、しばしば文字通りの言葉を超えています。
含意、不合理、前提の基本的な区別については広く合意されているが、多くの推測の状況はいまだに議論の余地がある。
本稿では, 平板および埋込み接合の3つの推論に焦点をあて, 通常のスカラー不整形と比較する。
この比較は,人間との同一の推論に関する最近の研究と同じ実験パラダイムを用いて,最先端の大規模言語モデルの予測の新しい視点から検討する。
最高のパフォーマンスモデルの結果は、主に人間のものと一致しており、それらの推論と不適応の大きな違いと、それらの推論の異なる側面の微妙な区別の両方で見られます。
関連論文リスト
- Statistical Uncertainty in Word Embeddings: GloVe-V [35.04183792123882]
本稿では,GloVeの近似的,使いやすい,スケーラブルな再構成誤差分散推定手法を提案する。
分散を伴う埋め込み(GloVe-V)の価値を示すために,本手法がコアワード埋め込みタスクにおいて,原理的仮説テストを実現する方法について述べる。
論文 参考訳(メタデータ) (2024-06-18T00:35:02Z) - Dive into the Chasm: Probing the Gap between In- and Cross-Topic
Generalization [66.4659448305396]
本研究は,3つの探索型実験を用いて種々のLMを解析し,In- vs. クロストピック一般化ギャップの背景にある理由を明らかにした。
はじめに、一般化ギャップと埋め込み空間の堅牢性は、LM間で大きく異なることを示した。
論文 参考訳(メタデータ) (2024-02-02T12:59:27Z) - UNcommonsense Reasoning: Abductive Reasoning about Uncommon Situations [62.71847873326847]
異常、予期せぬ、そしてありそうもない状況をモデル化する能力について検討する。
予期せぬ結果のコンテキストが与えられた場合、このタスクは説明を生成するために故意に推論する必要がある。
私たちはUNcommonsenseという新しい英語コーパスをリリースします。
論文 参考訳(メタデータ) (2023-11-14T19:00:55Z) - Studying and improving reasoning in humans and machines [0.0]
大規模言語モデル(LLM)と人間における推論について検討し比較する。
以上の結果から, 含んでいるモデルの多くは, しばしばエラーを起こし, インデューサに基づく人間の推論に類似した推論誤差を示していた。
論文 参考訳(メタデータ) (2023-09-21T21:02:05Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Interpreting Language Models with Contrastive Explanations [99.7035899290924]
言語モデルは、音声、数字、時制、意味論など、トークンを予測するための様々な特徴を考慮しなければならない。
既存の説明手法は、これらの特徴の証拠を1つの説明に分割するが、人間の理解には理解できない。
比較的な説明は、主要な文法現象の検証において、非対照的な説明よりも定量的に優れていることを示す。
論文 参考訳(メタデータ) (2022-02-21T18:32:24Z) - NOPE: A Corpus of Naturally-Occurring Presuppositions in English [33.69537711677911]
英語におけるNaturally-Occurring Presuppositions(NOPE)を紹介する。
本研究は,10種類のプレポーズトリガーの文脈感度について検討した。
我々は、人間の推論を予測する機械学習モデルの能力を評価する。
論文 参考訳(メタデータ) (2021-09-14T22:03:23Z) - On the Faithfulness Measurements for Model Interpretations [100.2730234575114]
ポストホックな解釈は、自然言語処理(NLP)モデルがどのように予測を行うかを明らかにすることを目的とする。
これらの問題に取り組むために,我々は,削除基準,解釈の感度,解釈の安定性という3つの基準から始める。
これらの忠実性概念のデシデラタムに動機づけられ、敵対的領域からのテクニックを採用する新しい解釈方法のクラスを導入する。
論文 参考訳(メタデータ) (2021-04-18T09:19:44Z) - Feedback in Imitation Learning: Confusion on Causality and Covariate
Shift [12.93527098342393]
我々は,過去の行動に対する条件付けが,学習者の「実行」エラーと性能の劇的な相違につながることを論じる。
我々は、模倣学習アプローチをテストするために使用される既存のベンチマークを分析する。
従来の文献とは驚くほど対照的に,行動的クローン化は優れた結果をもたらすことが判明した。
論文 参考訳(メタデータ) (2021-02-04T20:18:56Z) - Multi-sense embeddings through a word sense disambiguation process [2.2344764434954256]
最も適した感覚。
(MSSA)は、その文脈の意味的効果を考慮して、それぞれの単語をその特定の感覚で曖昧にし、注釈する。
我々は,単語類似性タスクの6つの異なるベンチマークでアプローチを検証し,そのアプローチが最先端の結果をもたらすことを示す。
論文 参考訳(メタデータ) (2021-01-21T16:22:34Z) - Multimodal Pretraining Unmasked: A Meta-Analysis and a Unified Framework
of Vision-and-Language BERTs [57.74359320513427]
ビジョンと言語BERTを事前訓練して、これらの2つの重要なAI領域の交差点での課題に取り組む方法が提案されている。
これら2つのカテゴリの違いについて検討し、単一の理論的枠組みの下でそれらをどのように統合できるかを示す。
5つのV&L BERT間の経験的差異を明らかにするための制御実験を行った。
論文 参考訳(メタデータ) (2020-11-30T18:55:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。