論文の概要: Event knowledge in large language models: the gap between the impossible
and the unlikely
- arxiv url: http://arxiv.org/abs/2212.01488v1
- Date: Fri, 2 Dec 2022 23:43:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 15:19:20.445607
- Title: Event knowledge in large language models: the gap between the impossible
and the unlikely
- Title(参考訳): 大規模言語モデルにおける事象知識 : 不可能と不可能とのギャップ
- Authors: Carina Kauf, Anna A. Ivanova, Giulia Rambelli, Emmanuele Chersoni,
Jingyuan S. She, Zawad Chowdhury, Evelina Fedorenko, Alessandro Lenci
- Abstract要約: 計算言語学者はこの事実を利用して、言語コーパスから共起に基づく知識を取得する大きな言語モデル(LLM)を構築している。
LLMは現実世界の出来事に関する一般的な知識を獲得しますか?
LLMは可能な事象と不可能事象を体系的に区別するが、起こりうる事象とありそうもない事象を区別する際には人間のパフォーマンスに欠けることがわかった。
- 参考スコア(独自算出の注目度): 52.69080477699425
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: People constantly use language to learn about the world. Computational
linguists have capitalized on this fact to build large language models (LLMs)
that acquire co-occurrence-based knowledge from language corpora. LLMs achieve
impressive performance on many tasks, but the robustness of their world
knowledge has been questioned. Here, we ask: do LLMs acquire generalized
knowledge about real-world events? Using curated sets of minimal sentence pairs
(n=1215), we tested whether LLMs are more likely to generate plausible event
descriptions compared to their implausible counterparts. We found that LLMs
systematically distinguish possible and impossible events (The teacher bought
the laptop vs. The laptop bought the teacher) but fall short of human
performance when distinguishing likely and unlikely events (The nanny tutored
the boy vs. The boy tutored the nanny). In follow-up analyses, we show that (i)
LLM scores are driven by both plausibility and surface-level sentence features,
(ii) LLMs generalize well across syntactic sentence variants (active vs
passive) but less well across semantic sentence variants (synonymous
sentences), (iii) some, but not all LLM deviations from ground-truth labels
align with crowdsourced human judgments, and (iv) explicit event plausibility
information emerges in middle LLM layers and remains high thereafter. Overall,
our analyses reveal a gap in LLMs' event knowledge, highlighting their
limitations as generalized knowledge bases. We conclude by speculating that the
differential performance on impossible vs. unlikely events is not a temporary
setback but an inherent property of LLMs, reflecting a fundamental difference
between linguistic knowledge and world knowledge in intelligent systems.
- Abstract(参考訳): 人々は常に言語を使って世界について学ぶ。
計算言語学者はこの事実を利用して、言語コーパスから共起に基づく知識を取得する大きな言語モデル(LLM)を構築している。
LLMは多くのタスクにおいて素晴らしいパフォーマンスを達成するが、彼らの世界知識の堅牢性は疑問視されている。
LLMは現実世界の出来事に関する一般的な知識を取得するだろうか?
最小文対 (n=1215) のキュレートされた集合を用いて, LLM が有意な事象記述を生成できるかどうかを検証した。
LLMは、可能なイベントと不可能なイベントを体系的に区別する(ラップトップとラップトップが購入した)が、ありそうもないイベントを区別する際には人間のパフォーマンスに欠ける(乳母は少年と乳母を指導した)。
フォローアップ分析では、
i) LLMスコアは、可視性と表面レベルの文特徴の両方によって駆動される。
(ii) llmは、構文的文の変種(アクティブとパッシブ)にまたがるが、意味的文の変種(synonymous sentences)ではよくない。
(iii)地中ラベルからのllm偏差が、クラウドソーシングされた人的判断と一致しているもの、
(4)中級LCM層に明示的な事象可視性情報が出現し,以降も高い状態が続く。
総じて,LLMの事象知識のギャップを明らかにし,その限界を一般化された知識基盤として強調した。
本研究は,言語知識と知的システムにおける世界知識の根本的な相違を反映して,不可能事象と不可避事象の差分性能は一時的な逆転ではなく,LLMの本質的特性である,と推測する。
関連論文リスト
- FAC$^2$E: Better Understanding Large Language Model Capabilities by
Dissociating Language and Cognition [57.747888532651]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Tasks That Language Models Don't Learn [0.41699156597945664]
本稿では,H-TESTと呼ばれる一連の課題を通して,言語の視覚的聴覚特性を実証的に調査する。
このベンチマークは、知覚経験を自然に統合する人間の言語理解と、LLMの知覚不足処理能力の基本的なギャップを浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-17T17:52:24Z) - Learning to Generate Explainable Stock Predictions using Self-Reflective
Large Language Models [54.21695754082441]
説明可能なストック予測を生成するために,LLM(Large Language Models)を教えるフレームワークを提案する。
反射剤は自己推論によって過去の株価の動きを説明する方法を学ぶ一方、PPOトレーナーは最も可能性の高い説明を生成するためにモデルを訓練する。
我々のフレームワークは従来のディープラーニング法とLLM法の両方を予測精度とマシューズ相関係数で上回ることができる。
論文 参考訳(メタデータ) (2024-02-06T03:18:58Z) - Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。
これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文 参考訳(メタデータ) (2024-01-30T17:38:54Z) - Evaluating Gender Bias in Large Language Models via Chain-of-Thought
Prompting [87.30837365008931]
CoT(Chain-of-Thought)プロンプトを備えた大規模言語モデル(LLM)は、計算不能なタスクでも正確なインクリメンタルな予測を行うことができる。
本研究では,LLMのステップバイステップ予測が性差に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2024-01-28T06:50:10Z) - Are Large Language Models Temporally Grounded? [38.481606493496514]
文章を記述したLarge Language Model (LLM) を提供する。
イベントの構造と持続時間に関する常識的な知識に関して、それらを調査する。
これらの能力を反映した3つの課題に対して,最先端のLCMを評価した。
論文 参考訳(メタデータ) (2023-11-14T18:57:15Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Can Large Language Models Capture Dissenting Human Voices? [7.668954669688971]
大規模言語モデル(LLM)は、幅広いタスクの解決において素晴らしい成果を上げている。
2つの異なる手法を用いてLLM分布の性能とアライメントを評価する。
LLMはNLIタスクを解く能力に限界を示し、同時に人間の不一致分布を捉えないことを示す。
論文 参考訳(メタデータ) (2023-05-23T07:55:34Z) - ThinkSum: Probabilistic reasoning over sets using large language models [18.123895485602244]
本稿では,2段階の確率的推論パラダイムであるThinkSumを提案する。
我々は,LLM評価タスクのBIGベンチスイートにおけるThinkSumの可能性とメリットを実証する。
論文 参考訳(メタデータ) (2022-10-04T00:34:01Z) - Large Language Models and the Reverse Turing Test [0.0]
LLMのインテリジェンスに見えるのは、実際にインタビュアーのインテリジェンスを反映したミラーかもしれない。
LLMがより能力を持つようになると、情報へのアクセスと利用の方法を変えるかもしれません。
論文 参考訳(メタデータ) (2022-07-28T21:22:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。