論文の概要: Event knowledge in large language models: the gap between the impossible
and the unlikely
- arxiv url: http://arxiv.org/abs/2212.01488v3
- Date: Sun, 27 Aug 2023 02:38:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 01:16:31.267261
- Title: Event knowledge in large language models: the gap between the impossible
and the unlikely
- Title(参考訳): 大規模言語モデルにおける事象知識 : 不可能と不可能とのギャップ
- Authors: Carina Kauf, Anna A. Ivanova, Giulia Rambelli, Emmanuele Chersoni,
Jingyuan Selena She, Zawad Chowdhury, Evelina Fedorenko, Alessandro Lenci
- Abstract要約: 我々は,事前学習された大規模言語モデル (LLM) がイベント知識を持つことを示す。
彼らはほぼ常に、不可能な事象に対して高い確率を割り当てる。
しかし、おそらくは起こりそうもない出来事に対して、一貫性のない選好を示す。
- 参考スコア(独自算出の注目度): 46.540380831486125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Word co-occurrence patterns in language corpora contain a surprising amount
of conceptual knowledge. Large language models (LLMs), trained to predict words
in context, leverage these patterns to achieve impressive performance on
diverse semantic tasks requiring world knowledge. An important but understudied
question about LLMs' semantic abilities is whether they acquire generalized
knowledge of common events. Here, we test whether five pre-trained LLMs (from
2018's BERT to 2023's MPT) assign higher likelihood to plausible descriptions
of agent-patient interactions than to minimally different implausible versions
of the same event. Using three curated sets of minimal sentence pairs (total
n=1,215), we found that pre-trained LLMs possess substantial event knowledge,
outperforming other distributional language models. In particular, they almost
always assign higher likelihood to possible vs. impossible events (The teacher
bought the laptop vs. The laptop bought the teacher). However, LLMs show less
consistent preferences for likely vs. unlikely events (The nanny tutored the
boy vs. The boy tutored the nanny). In follow-up analyses, we show that (i) LLM
scores are driven by both plausibility and surface-level sentence features,
(ii) LLM scores generalize well across syntactic variants (active vs. passive
constructions) but less well across semantic variants (synonymous sentences),
(iii) some LLM errors mirror human judgment ambiguity, and (iv) sentence
plausibility serves as an organizing dimension in internal LLM representations.
Overall, our results show that important aspects of event knowledge naturally
emerge from distributional linguistic patterns, but also highlight a gap
between representations of possible/impossible and likely/unlikely events.
- Abstract(参考訳): 言語コーパスにおける単語共起パターンには驚くべき概念知識が含まれている。
大きな言語モデル(LLM)は、文脈における単語の予測のために訓練され、これらのパターンを活用し、世界の知識を必要とする多様な意味的タスクにおいて印象的なパフォーマンスを達成する。
LLMのセマンティック能力に関する重要なが未調査の疑問は、共通事象の一般的な知識を取得するかどうかである。
ここでは、2018年のBERTから2023年のMPTまでの5つの事前訓練LSMが、同一事象の最小限の異なる可聴性バージョンよりも、エージェントと患者間の相互作用のもっともらしい記述に高い確率を割り当てているかどうかを検証する。
3組の最小文対 (total n=1,215) を用いて, 事前学習した LLM がイベント知識を有し, その他の分散言語モデルよりも優れた結果を得た。
特に、ほとんどの場合、不可能なイベントよりも高い確率を割り当てる(教師はノートパソコン、教師はノートパソコンを購入した)。
しかし、llmは、ありそうにない出来事に対して、より一貫性のない好みを示す(乳母が男の子を、乳母が乳母を教育した)。
フォローアップ分析では、
i) LLMスコアは、可視性と表面レベルの文特徴の両方によって駆動される。
(ii)llmスコアは、構文的変種(アクティブ対パッシブ構成)にまたがるが、意味的変種(synonymous sentences)に収まらない。
三 人間の判断の曖昧さを反映したLLMエラー
(iv)文の可読性は、内部llm表現の整理次元として機能する。
以上の結果から,イベント・ナレッジの重要な側面は,分布型言語パターンから自然に現れるだけでなく,可能/不可能な事象の表現のギャップも浮き彫りにしている。
関連論文リスト
- Structured Event Reasoning with Large Language Models [4.897267974042842]
現実の出来事に対する推論は、AIとNLPの統一的な課題である。
私は、エンド・ツー・エンドのLLMが複雑なイベントを体系的に推論できないことを示しています。
イベントの構造化表現と合わせてLLMを使用するための3つの一般的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-08-28T19:03:41Z) - Implicit Multimodal Alignment: On the Generalization of Frozen LLMs to Multimodal Inputs [63.29737699997859]
大規模言語モデル(LLM)は、マルチモーダルな微調整をせずに、マルチモーダルなタスクにおいて印象的なパフォーマンスを示した。
本研究では,画像,ビデオ,音声,テキストの入力に凍結LDMを公開し,内部表現を解析する。
論文 参考訳(メタデータ) (2024-05-26T21:31:59Z) - The Strong Pull of Prior Knowledge in Large Language Models and Its Impact on Emotion Recognition [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理のための強力なパラダイムとして登場した。
LLMには、感情認識において強いが矛盾する先行性があり、その予測に影響を及ぼすことが示される。
以上の結果から,ICLをより大きなLCMで事前学習領域外の情動中心タスクに使用する場合,注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T19:07:32Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Evaluating Gender Bias in Large Language Models via Chain-of-Thought
Prompting [87.30837365008931]
CoT(Chain-of-Thought)プロンプトを備えた大規模言語モデル(LLM)は、計算不能なタスクでも正確なインクリメンタルな予測を行うことができる。
本研究では,LLMのステップバイステップ予測が性差に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2024-01-28T06:50:10Z) - Are Large Language Models Temporally Grounded? [38.481606493496514]
文章を記述したLarge Language Model (LLM) を提供する。
イベントの構造と持続時間に関する常識的な知識に関して、それらを調査する。
これらの能力を反映した3つの課題に対して,最先端のLCMを評価した。
論文 参考訳(メタデータ) (2023-11-14T18:57:15Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Can Large Language Models Capture Dissenting Human Voices? [7.668954669688971]
大規模言語モデル(LLM)は、幅広いタスクの解決において素晴らしい成果を上げている。
2つの異なる手法を用いてLLM分布の性能とアライメントを評価する。
LLMはNLIタスクを解く能力に限界を示し、同時に人間の不一致分布を捉えないことを示す。
論文 参考訳(メタデータ) (2023-05-23T07:55:34Z) - ThinkSum: Probabilistic reasoning over sets using large language models [18.123895485602244]
本稿では,2段階の確率的推論パラダイムであるThinkSumを提案する。
我々は,LLM評価タスクのBIGベンチスイートにおけるThinkSumの可能性とメリットを実証する。
論文 参考訳(メタデータ) (2022-10-04T00:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。