論文の概要: Do large language models and humans have similar behaviors in causal
inference with script knowledge?
- arxiv url: http://arxiv.org/abs/2311.07311v1
- Date: Mon, 13 Nov 2023 13:05:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 14:24:57.476874
- Title: Do large language models and humans have similar behaviors in causal
inference with script knowledge?
- Title(参考訳): 大規模言語モデルと人間は、スクリプト知識と因果推論に類似した振る舞いを持つか?
- Authors: Xudong Hong, Margarita Ryzhova, Daniel Adrian Biondi and Vera Demberg
- Abstract要約: スクリプトベースのストーリーでイベントの処理をB$で研究する。
私たちの操作では、Event $A$は、テキストの以前のセクションで記述、無効化、または省略されます。
- 参考スコア(独自算出の注目度): 13.140513796801915
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recently, large pre-trained language models (LLMs) have demonstrated superior
language understanding abilities, including zero-shot causal reasoning.
However, it is unclear to what extent their capabilities are similar to human
ones. We here study the processing of an event $B$ in a script-based story,
which causally depends on a previous event $A$. In our manipulation, event $A$
is stated, negated, or omitted in an earlier section of the text. We first
conducted a self-paced reading experiment, which showed that humans exhibit
significantly longer reading times when causal conflicts exist ($\neg A
\rightarrow B$) than under logical conditions ($A \rightarrow B$). However,
reading times remain similar when cause A is not explicitly mentioned,
indicating that humans can easily infer event B from their script knowledge. We
then tested a variety of LLMs on the same data to check to what extent the
models replicate human behavior. Our experiments show that 1) only recent LLMs,
like GPT-3 or Vicuna, correlate with human behavior in the $\neg A \rightarrow
B$ condition. 2) Despite this correlation, all models still fail to predict
that $nil \rightarrow B$ is less surprising than $\neg A \rightarrow B$,
indicating that LLMs still have difficulties integrating script knowledge. Our
code and collected data set are available at
https://github.com/tony-hong/causal-script.
- Abstract(参考訳): 近年,大規模な事前学習型言語モデル (LLM) は,ゼロショット因果推論を含む優れた言語理解能力を示している。
しかし、その能力がどの程度人間に類似しているかは不明である。
ここでは、スクリプトベースのストーリーにおけるイベント$b$の処理を研究します。
私たちの操作では、Event $A$はテキストの以前のセクションで記述、無効化、または省略されます。
まず,人間は論理的条件下(A \rightarrow B$)よりも,因果的衝突が存在する場合(A \rightarrow B$)の読解時間が有意に長いことを示した。
しかし、A原因が明記されていない場合の読解時間は類似しており、人間がスクリプトの知識から容易にB事象を推測できることを示している。
次に、同じデータ上でさまざまなLSMをテストし、モデルが人間の行動をどの程度再現するかを確認しました。
私たちの実験は
1) GPT-3 や Vicuna のような最近の LLM は、$\neg A \rightarrow B$ 条件における人間の行動と相関している。
2) この相関にもかかわらず、すべてのモデルは、$nil \rightarrow b$が$\neg a \rightarrow b$よりも意外ではないと予測できない。
私たちのコードと収集したデータセットは、https://github.com/tony-hong/causal-scriptで利用可能です。
関連論文リスト
- Cross-validating causal discovery via Leave-One-Variable-Out [11.891940572224783]
私たちは"Leave-One-Variable-Out (LOVO)"予測を使い、$Y$は$X$から推論されるが、$X$と$Y$は共同で観測されることはない。
Acyclic Directed Mixed Graphs (ADMGs) という形で、2つの部分集合上の因果モデルが、しばしば$X$ と $Y$ の依存関係に関する結論を導くことを示した。
この予測誤差は、$P(X, Y)$が利用可能であると仮定され、$X$と$Y$がfalの目的のために省略されているため推定できる。
論文 参考訳(メタデータ) (2024-11-08T15:15:34Z) - Great Memory, Shallow Reasoning: Limits of $k$NN-LMs [71.73611113995143]
検索とnext-word予測を統合した$k$NN-LMsは、言語モデリングにおいて強力な性能を示している。
この改良された情報リコール能力が、本当に下流の能力に変換されるかどうかを問う。
論文 参考訳(メタデータ) (2024-08-21T17:59:05Z) - Stacking Your Transformers: A Closer Look at Model Growth for Efficient LLM Pre-Training [42.89066583603415]
この作業では、3つの重要な$textitO$bstacleを識別する: 包括的な評価の欠如、(textitO$2) スケーリングのためのテストされていない生存性、(textitO$3) 経験的ガイドラインの欠如。
G_textstack$と呼ばれる深い積み重ね演算子は、トレーニングにおいて顕著な加速を示し、損失が減少し、全体的な性能が向上することを示した。
論文 参考訳(メタデータ) (2024-05-24T08:00:00Z) - Many-Shot Regurgitation (MSR) Prompting [26.9991760335222]
大規模言語モデル (LLM) において, 暗黙的コンテンツ再現を検証するための新たなブラックボックスメンバシップ推論攻撃フレームワークであるMulti-Shot Regurgitation (MSR) を導入した。
MSRプロンプトは、入力テキストを複数のセグメントに分割し、ユーザと言語モデルの間の一連の偽の会話ラウンドを含む単一のプロンプトを作成して、動詞の反復を誘発する。
MSRをウィキペディアの記事やオープン教育リソース(OER)教科書など多様なテキストソースに適用し,高品質な事実コンテンツを提供する。
論文 参考訳(メタデータ) (2024-05-13T19:22:40Z) - Towards a Theoretical Understanding of the 'Reversal Curse' via Training Dynamics [45.69328374321502]
自動回帰型大言語モデル(LLM)は、多くの複雑な推論タスクを解くのに優れた能力を示す。
LLM は、2つの文が意味的に同一であっても、推論中に '$B get A$' と結論付けることができない。
2つの自己回帰モデルに対する勾配降下のトレーニング力学を用いて、理論的に逆の呪いを解析する。
論文 参考訳(メタデータ) (2024-05-07T21:03:51Z) - Language models scale reliably with over-training and on downstream tasks [121.69867718185125]
スケーリング法則は、高価なトレーニング実行を引き出すための有用なガイドである。
しかし、現在の研究と言語モデルがどのように訓練されているかには差がある。
対照的に、スケーリング法則は主に推論における損失を予測するが、モデルは通常下流のタスクのパフォーマンスで比較される。
論文 参考訳(メタデータ) (2024-03-13T13:54:00Z) - Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。
相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。
これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-09T12:09:15Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z) - Mediated Uncoupled Learning: Learning Functions without Direct
Input-output Correspondences [80.95776331769899]
ペア化されたデータがない場合、$X$から$Y$を予測するタスクを考えます。
単純なアプローチは、$S_X$で$U$から$U$を予測し、$S_Y$で$U$から$Y$を予測することである。
我々は$U$を予測しない新しい方法を提案するが、$f(X)$と$S_X$をトレーニングすることで$Y = f(X)$を直接学習し、$h(U)$を予測する。
論文 参考訳(メタデータ) (2021-07-16T22:13:29Z) - proScript: Partially Ordered Scripts Generation via Pre-trained Language
Models [49.03193243699244]
我々は、トレーニング済みのニューラルネットワークモデル(LM)が高品質なスクリプトを生成するために微調整できることを初めて実証した。
クラウドソースされた部分的に順序付けられたスクリプト(proScriptという名前)を収集しました。
私たちの実験では、これまでのスクリプトコレクションの障壁を克服するための新しいアプローチを示す(例えば、タスク(i)中のf1=75.7)。
論文 参考訳(メタデータ) (2021-04-16T17:35:10Z) - Faster Uncertainty Quantification for Inverse Problems with Conditional
Normalizing Flows [0.9176056742068814]
逆問題では、ペア化されたサンプル$(x,y)sim p_X,Y(x,y)$で、$y$は物理系の部分的な観測であることが多い。
条件付きジェネレータ$q_theta(x|y)$をトレーニングするために,フローとジョイントデータを正規化する2段階のスキームを提案する。
論文 参考訳(メタデータ) (2020-07-15T20:36:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。