論文の概要: Event knowledge in large language models: the gap between the impossible
and the unlikely
- arxiv url: http://arxiv.org/abs/2212.01488v1
- Date: Fri, 2 Dec 2022 23:43:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 15:19:20.445607
- Title: Event knowledge in large language models: the gap between the impossible
and the unlikely
- Title(参考訳): 大規模言語モデルにおける事象知識 : 不可能と不可能とのギャップ
- Authors: Carina Kauf, Anna A. Ivanova, Giulia Rambelli, Emmanuele Chersoni,
Jingyuan S. She, Zawad Chowdhury, Evelina Fedorenko, Alessandro Lenci
- Abstract要約: 計算言語学者はこの事実を利用して、言語コーパスから共起に基づく知識を取得する大きな言語モデル(LLM)を構築している。
LLMは現実世界の出来事に関する一般的な知識を獲得しますか?
LLMは可能な事象と不可能事象を体系的に区別するが、起こりうる事象とありそうもない事象を区別する際には人間のパフォーマンスに欠けることがわかった。
- 参考スコア(独自算出の注目度): 52.69080477699425
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: People constantly use language to learn about the world. Computational
linguists have capitalized on this fact to build large language models (LLMs)
that acquire co-occurrence-based knowledge from language corpora. LLMs achieve
impressive performance on many tasks, but the robustness of their world
knowledge has been questioned. Here, we ask: do LLMs acquire generalized
knowledge about real-world events? Using curated sets of minimal sentence pairs
(n=1215), we tested whether LLMs are more likely to generate plausible event
descriptions compared to their implausible counterparts. We found that LLMs
systematically distinguish possible and impossible events (The teacher bought
the laptop vs. The laptop bought the teacher) but fall short of human
performance when distinguishing likely and unlikely events (The nanny tutored
the boy vs. The boy tutored the nanny). In follow-up analyses, we show that (i)
LLM scores are driven by both plausibility and surface-level sentence features,
(ii) LLMs generalize well across syntactic sentence variants (active vs
passive) but less well across semantic sentence variants (synonymous
sentences), (iii) some, but not all LLM deviations from ground-truth labels
align with crowdsourced human judgments, and (iv) explicit event plausibility
information emerges in middle LLM layers and remains high thereafter. Overall,
our analyses reveal a gap in LLMs' event knowledge, highlighting their
limitations as generalized knowledge bases. We conclude by speculating that the
differential performance on impossible vs. unlikely events is not a temporary
setback but an inherent property of LLMs, reflecting a fundamental difference
between linguistic knowledge and world knowledge in intelligent systems.
- Abstract(参考訳): 人々は常に言語を使って世界について学ぶ。
計算言語学者はこの事実を利用して、言語コーパスから共起に基づく知識を取得する大きな言語モデル(LLM)を構築している。
LLMは多くのタスクにおいて素晴らしいパフォーマンスを達成するが、彼らの世界知識の堅牢性は疑問視されている。
LLMは現実世界の出来事に関する一般的な知識を取得するだろうか?
最小文対 (n=1215) のキュレートされた集合を用いて, LLM が有意な事象記述を生成できるかどうかを検証した。
LLMは、可能なイベントと不可能なイベントを体系的に区別する(ラップトップとラップトップが購入した)が、ありそうもないイベントを区別する際には人間のパフォーマンスに欠ける(乳母は少年と乳母を指導した)。
フォローアップ分析では、
i) LLMスコアは、可視性と表面レベルの文特徴の両方によって駆動される。
(ii) llmは、構文的文の変種(アクティブとパッシブ)にまたがるが、意味的文の変種(synonymous sentences)ではよくない。
(iii)地中ラベルからのllm偏差が、クラウドソーシングされた人的判断と一致しているもの、
(4)中級LCM層に明示的な事象可視性情報が出現し,以降も高い状態が続く。
総じて,LLMの事象知識のギャップを明らかにし,その限界を一般化された知識基盤として強調した。
本研究は,言語知識と知的システムにおける世界知識の根本的な相違を反映して,不可能事象と不可避事象の差分性能は一時的な逆転ではなく,LLMの本質的特性である,と推測する。
関連論文リスト
- Structured Event Reasoning with Large Language Models [4.897267974042842]
現実の出来事に対する推論は、AIとNLPの統一的な課題である。
私は、エンド・ツー・エンドのLLMが複雑なイベントを体系的に推論できないことを示しています。
イベントの構造化表現と合わせてLLMを使用するための3つの一般的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-08-28T19:03:41Z) - Implicit Multimodal Alignment: On the Generalization of Frozen LLMs to Multimodal Inputs [63.29737699997859]
大規模言語モデル(LLM)は、マルチモーダルな微調整をせずに、マルチモーダルなタスクにおいて印象的なパフォーマンスを示した。
本研究では,画像,ビデオ,音声,テキストの入力に凍結LDMを公開し,内部表現を解析する。
論文 参考訳(メタデータ) (2024-05-26T21:31:59Z) - The Strong Pull of Prior Knowledge in Large Language Models and Its Impact on Emotion Recognition [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理のための強力なパラダイムとして登場した。
LLMには、感情認識において強いが矛盾する先行性があり、その予測に影響を及ぼすことが示される。
以上の結果から,ICLをより大きなLCMで事前学習領域外の情動中心タスクに使用する場合,注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T19:07:32Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Evaluating Gender Bias in Large Language Models via Chain-of-Thought
Prompting [87.30837365008931]
CoT(Chain-of-Thought)プロンプトを備えた大規模言語モデル(LLM)は、計算不能なタスクでも正確なインクリメンタルな予測を行うことができる。
本研究では,LLMのステップバイステップ予測が性差に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2024-01-28T06:50:10Z) - Are Large Language Models Temporally Grounded? [38.481606493496514]
文章を記述したLarge Language Model (LLM) を提供する。
イベントの構造と持続時間に関する常識的な知識に関して、それらを調査する。
これらの能力を反映した3つの課題に対して,最先端のLCMを評価した。
論文 参考訳(メタデータ) (2023-11-14T18:57:15Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Can Large Language Models Capture Dissenting Human Voices? [7.668954669688971]
大規模言語モデル(LLM)は、幅広いタスクの解決において素晴らしい成果を上げている。
2つの異なる手法を用いてLLM分布の性能とアライメントを評価する。
LLMはNLIタスクを解く能力に限界を示し、同時に人間の不一致分布を捉えないことを示す。
論文 参考訳(メタデータ) (2023-05-23T07:55:34Z) - ThinkSum: Probabilistic reasoning over sets using large language models [18.123895485602244]
本稿では,2段階の確率的推論パラダイムであるThinkSumを提案する。
我々は,LLM評価タスクのBIGベンチスイートにおけるThinkSumの可能性とメリットを実証する。
論文 参考訳(メタデータ) (2022-10-04T00:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。