論文の概要: Do large language models and humans have similar behaviors in causal
inference with script knowledge?
- arxiv url: http://arxiv.org/abs/2311.07311v1
- Date: Mon, 13 Nov 2023 13:05:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 14:24:57.476874
- Title: Do large language models and humans have similar behaviors in causal
inference with script knowledge?
- Title(参考訳): 大規模言語モデルと人間は、スクリプト知識と因果推論に類似した振る舞いを持つか?
- Authors: Xudong Hong, Margarita Ryzhova, Daniel Adrian Biondi and Vera Demberg
- Abstract要約: スクリプトベースのストーリーでイベントの処理をB$で研究する。
私たちの操作では、Event $A$は、テキストの以前のセクションで記述、無効化、または省略されます。
- 参考スコア(独自算出の注目度): 13.140513796801915
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recently, large pre-trained language models (LLMs) have demonstrated superior
language understanding abilities, including zero-shot causal reasoning.
However, it is unclear to what extent their capabilities are similar to human
ones. We here study the processing of an event $B$ in a script-based story,
which causally depends on a previous event $A$. In our manipulation, event $A$
is stated, negated, or omitted in an earlier section of the text. We first
conducted a self-paced reading experiment, which showed that humans exhibit
significantly longer reading times when causal conflicts exist ($\neg A
\rightarrow B$) than under logical conditions ($A \rightarrow B$). However,
reading times remain similar when cause A is not explicitly mentioned,
indicating that humans can easily infer event B from their script knowledge. We
then tested a variety of LLMs on the same data to check to what extent the
models replicate human behavior. Our experiments show that 1) only recent LLMs,
like GPT-3 or Vicuna, correlate with human behavior in the $\neg A \rightarrow
B$ condition. 2) Despite this correlation, all models still fail to predict
that $nil \rightarrow B$ is less surprising than $\neg A \rightarrow B$,
indicating that LLMs still have difficulties integrating script knowledge. Our
code and collected data set are available at
https://github.com/tony-hong/causal-script.
- Abstract(参考訳): 近年,大規模な事前学習型言語モデル (LLM) は,ゼロショット因果推論を含む優れた言語理解能力を示している。
しかし、その能力がどの程度人間に類似しているかは不明である。
ここでは、スクリプトベースのストーリーにおけるイベント$b$の処理を研究します。
私たちの操作では、Event $A$はテキストの以前のセクションで記述、無効化、または省略されます。
まず,人間は論理的条件下(A \rightarrow B$)よりも,因果的衝突が存在する場合(A \rightarrow B$)の読解時間が有意に長いことを示した。
しかし、A原因が明記されていない場合の読解時間は類似しており、人間がスクリプトの知識から容易にB事象を推測できることを示している。
次に、同じデータ上でさまざまなLSMをテストし、モデルが人間の行動をどの程度再現するかを確認しました。
私たちの実験は
1) GPT-3 や Vicuna のような最近の LLM は、$\neg A \rightarrow B$ 条件における人間の行動と相関している。
2) この相関にもかかわらず、すべてのモデルは、$nil \rightarrow b$が$\neg a \rightarrow b$よりも意外ではないと予測できない。
私たちのコードと収集したデータセットは、https://github.com/tony-hong/causal-scriptで利用可能です。
関連論文リスト
- Comparing Plausibility Estimates in Base and Instruction-Tuned Large Language Models [50.15455336684986]
本研究では,英語文の可読性タスクにおいて,暗黙的プロンプトと暗黙的推定を用いて,ベースおよび命令調整型LLMの性能を比較した。
実験1では、モデルアーキテクチャと可視性データセットを通して、ログ可能性(textitLL$)スコアが文の可視性を示す最も信頼性の高い指標であることが示されている。
実験2では、モデル間の$textitLL$スコアが、期待される方法でコンテキストによって変調されることを示し、コンテキストに敏感な3つのメトリクスで高いパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-03-21T22:08:44Z) - Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。
相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。
これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-09T12:09:15Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z) - How many dimensions are required to find an adversarial example? [0.0]
敵の脆弱性が$dim(V)$に依存するかを検討する。
特に、$ellp$ノルム制約による標準PGD攻撃の対角的成功は、$epsilonの単調に増加する関数のように振る舞うことを示す。
論文 参考訳(メタデータ) (2023-03-24T17:36:15Z) - Mediated Uncoupled Learning: Learning Functions without Direct
Input-output Correspondences [80.95776331769899]
ペア化されたデータがない場合、$X$から$Y$を予測するタスクを考えます。
単純なアプローチは、$S_X$で$U$から$U$を予測し、$S_Y$で$U$から$Y$を予測することである。
我々は$U$を予測しない新しい方法を提案するが、$f(X)$と$S_X$をトレーニングすることで$Y = f(X)$を直接学習し、$h(U)$を予測する。
論文 参考訳(メタデータ) (2021-07-16T22:13:29Z) - proScript: Partially Ordered Scripts Generation via Pre-trained Language
Models [49.03193243699244]
我々は、トレーニング済みのニューラルネットワークモデル(LM)が高品質なスクリプトを生成するために微調整できることを初めて実証した。
クラウドソースされた部分的に順序付けられたスクリプト(proScriptという名前)を収集しました。
私たちの実験では、これまでのスクリプトコレクションの障壁を克服するための新しいアプローチを示す(例えば、タスク(i)中のf1=75.7)。
論文 参考訳(メタデータ) (2021-04-16T17:35:10Z) - Faster Uncertainty Quantification for Inverse Problems with Conditional
Normalizing Flows [0.9176056742068814]
逆問題では、ペア化されたサンプル$(x,y)sim p_X,Y(x,y)$で、$y$は物理系の部分的な観測であることが多い。
条件付きジェネレータ$q_theta(x|y)$をトレーニングするために,フローとジョイントデータを正規化する2段階のスキームを提案する。
論文 参考訳(メタデータ) (2020-07-15T20:36:30Z) - Shuffling Recurrent Neural Networks [97.72614340294547]
隠れ状態 $h_t$ を以前の隠れ状態 $h_t-1$ のベクトル要素を置換することにより、隠れ状態 $h_t$ が得られる新しいリカレントニューラルネットワークモデルを提案する。
私たちのモデルでは、予測は第2の学習関数によって与えられ、隠された状態 $s(h_t)$ に適用されます。
論文 参考訳(メタデータ) (2020-07-14T19:36:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。