論文の概要: Event knowledge in large language models: the gap between the impossible
and the unlikely
- arxiv url: http://arxiv.org/abs/2212.01488v4
- Date: Thu, 26 Oct 2023 13:27:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-28 06:03:10.382139
- Title: Event knowledge in large language models: the gap between the impossible
and the unlikely
- Title(参考訳): 大規模言語モデルにおける事象知識 : 不可能と不可能とのギャップ
- Authors: Carina Kauf, Anna A. Ivanova, Giulia Rambelli, Emmanuele Chersoni,
Jingyuan Selena She, Zawad Chowdhury, Evelina Fedorenko, Alessandro Lenci
- Abstract要約: 我々は,事前学習された大規模言語モデル (LLM) がイベント知識を持つことを示す。
彼らはほぼ常に、不可能な事象に対して高い確率を割り当てる。
しかし、おそらくは起こりそうもない出来事に対して、一貫性のない選好を示す。
- 参考スコア(独自算出の注目度): 46.540380831486125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Word co-occurrence patterns in language corpora contain a surprising amount
of conceptual knowledge. Large language models (LLMs), trained to predict words
in context, leverage these patterns to achieve impressive performance on
diverse semantic tasks requiring world knowledge. An important but understudied
question about LLMs' semantic abilities is whether they acquire generalized
knowledge of common events. Here, we test whether five pre-trained LLMs (from
2018's BERT to 2023's MPT) assign higher likelihood to plausible descriptions
of agent-patient interactions than to minimally different implausible versions
of the same event. Using three curated sets of minimal sentence pairs (total
n=1,215), we found that pre-trained LLMs possess substantial event knowledge,
outperforming other distributional language models. In particular, they almost
always assign higher likelihood to possible vs. impossible events (The teacher
bought the laptop vs. The laptop bought the teacher). However, LLMs show less
consistent preferences for likely vs. unlikely events (The nanny tutored the
boy vs. The boy tutored the nanny). In follow-up analyses, we show that (i) LLM
scores are driven by both plausibility and surface-level sentence features,
(ii) LLM scores generalize well across syntactic variants (active vs. passive
constructions) but less well across semantic variants (synonymous sentences),
(iii) some LLM errors mirror human judgment ambiguity, and (iv) sentence
plausibility serves as an organizing dimension in internal LLM representations.
Overall, our results show that important aspects of event knowledge naturally
emerge from distributional linguistic patterns, but also highlight a gap
between representations of possible/impossible and likely/unlikely events.
- Abstract(参考訳): 言語コーパスにおける単語共起パターンには驚くべき概念知識が含まれている。
大きな言語モデル(LLM)は、文脈における単語の予測のために訓練され、これらのパターンを活用し、世界の知識を必要とする多様な意味的タスクにおいて印象的なパフォーマンスを達成する。
LLMのセマンティック能力に関する重要なが未調査の疑問は、共通事象の一般的な知識を取得するかどうかである。
ここでは、2018年のBERTから2023年のMPTまでの5つの事前訓練LSMが、同一事象の最小限の異なる可聴性バージョンよりも、エージェントと患者間の相互作用のもっともらしい記述に高い確率を割り当てているかどうかを検証する。
3組の最小文対 (total n=1,215) を用いて, 事前学習した LLM がイベント知識を有し, その他の分散言語モデルよりも優れた結果を得た。
特に、ほとんどの場合、不可能なイベントよりも高い確率を割り当てる(教師はノートパソコン、教師はノートパソコンを購入した)。
しかし、llmは、ありそうにない出来事に対して、より一貫性のない好みを示す(乳母が男の子を、乳母が乳母を教育した)。
フォローアップ分析では、
i) LLMスコアは、可視性と表面レベルの文特徴の両方によって駆動される。
(ii)llmスコアは、構文的変種(アクティブ対パッシブ構成)にまたがるが、意味的変種(synonymous sentences)に収まらない。
三 人間の判断の曖昧さを反映したLLMエラー
(iv)文の可読性は、内部llm表現の整理次元として機能する。
以上の結果から,イベント・ナレッジの重要な側面は,分布型言語パターンから自然に現れるだけでなく,可能/不可能な事象の表現のギャップも浮き彫りにしている。
関連論文リスト
- FAC$^2$E: Better Understanding Large Language Model Capabilities by
Dissociating Language and Cognition [57.747888532651]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Tasks That Language Models Don't Learn [0.41699156597945664]
本稿では,H-TESTと呼ばれる一連の課題を通して,言語の視覚的聴覚特性を実証的に調査する。
このベンチマークは、知覚経験を自然に統合する人間の言語理解と、LLMの知覚不足処理能力の基本的なギャップを浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-17T17:52:24Z) - Learning to Generate Explainable Stock Predictions using Self-Reflective
Large Language Models [54.21695754082441]
説明可能なストック予測を生成するために,LLM(Large Language Models)を教えるフレームワークを提案する。
反射剤は自己推論によって過去の株価の動きを説明する方法を学ぶ一方、PPOトレーナーは最も可能性の高い説明を生成するためにモデルを訓練する。
我々のフレームワークは従来のディープラーニング法とLLM法の両方を予測精度とマシューズ相関係数で上回ることができる。
論文 参考訳(メタデータ) (2024-02-06T03:18:58Z) - Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。
これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文 参考訳(メタデータ) (2024-01-30T17:38:54Z) - Evaluating Gender Bias in Large Language Models via Chain-of-Thought
Prompting [87.30837365008931]
CoT(Chain-of-Thought)プロンプトを備えた大規模言語モデル(LLM)は、計算不能なタスクでも正確なインクリメンタルな予測を行うことができる。
本研究では,LLMのステップバイステップ予測が性差に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2024-01-28T06:50:10Z) - Are Large Language Models Temporally Grounded? [38.481606493496514]
文章を記述したLarge Language Model (LLM) を提供する。
イベントの構造と持続時間に関する常識的な知識に関して、それらを調査する。
これらの能力を反映した3つの課題に対して,最先端のLCMを評価した。
論文 参考訳(メタデータ) (2023-11-14T18:57:15Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Can Large Language Models Capture Dissenting Human Voices? [7.668954669688971]
大規模言語モデル(LLM)は、幅広いタスクの解決において素晴らしい成果を上げている。
2つの異なる手法を用いてLLM分布の性能とアライメントを評価する。
LLMはNLIタスクを解く能力に限界を示し、同時に人間の不一致分布を捉えないことを示す。
論文 参考訳(メタデータ) (2023-05-23T07:55:34Z) - ThinkSum: Probabilistic reasoning over sets using large language models [18.123895485602244]
本稿では,2段階の確率的推論パラダイムであるThinkSumを提案する。
我々は,LLM評価タスクのBIGベンチスイートにおけるThinkSumの可能性とメリットを実証する。
論文 参考訳(メタデータ) (2022-10-04T00:34:01Z) - Large Language Models and the Reverse Turing Test [0.0]
LLMのインテリジェンスに見えるのは、実際にインタビュアーのインテリジェンスを反映したミラーかもしれない。
LLMがより能力を持つようになると、情報へのアクセスと利用の方法を変えるかもしれません。
論文 参考訳(メタデータ) (2022-07-28T21:22:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。