Fugu-MT 論文翻訳(概要): Do large language models and humans have similar behaviors in causal inference with script knowledge?

論文の概要: Do large language models and humans have similar behaviors in causal inference with script knowledge?

arxiv url: http://arxiv.org/abs/2311.07311v1
Date: Mon, 13 Nov 2023 13:05:15 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-14 14:24:57.476874
Title: Do large language models and humans have similar behaviors in causal inference with script knowledge?
Title（参考訳）: 大規模言語モデルと人間は、スクリプト知識と因果推論に類似した振る舞いを持つか?
Authors: Xudong Hong, Margarita Ryzhova, Daniel Adrian Biondi and Vera Demberg
Abstract要約: スクリプトベースのストーリーでイベントの処理をB$で研究する。私たちの操作では、Event $A$は、テキストの以前のセクションで記述、無効化、または省略されます。
参考スコア（独自算出の注目度）: 13.140513796801915
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Recently, large pre-trained language models (LLMs) have demonstrated superior language understanding abilities, including zero-shot causal reasoning. However, it is unclear to what extent their capabilities are similar to human ones. We here study the processing of an event $B$ in a script-based story, which causally depends on a previous event $A$. In our manipulation, event $A$ is stated, negated, or omitted in an earlier section of the text. We first conducted a self-paced reading experiment, which showed that humans exhibit significantly longer reading times when causal conflicts exist ($\neg A \rightarrow B$) than under logical conditions ($A \rightarrow B$). However, reading times remain similar when cause A is not explicitly mentioned, indicating that humans can easily infer event B from their script knowledge. We then tested a variety of LLMs on the same data to check to what extent the models replicate human behavior. Our experiments show that 1) only recent LLMs, like GPT-3 or Vicuna, correlate with human behavior in the $\neg A \rightarrow B$ condition. 2) Despite this correlation, all models still fail to predict that $nil \rightarrow B$ is less surprising than $\neg A \rightarrow B$, indicating that LLMs still have difficulties integrating script knowledge. Our code and collected data set are available at https://github.com/tony-hong/causal-script.
Abstract（参考訳）: 近年,大規模な事前学習型言語モデル (LLM) は,ゼロショット因果推論を含む優れた言語理解能力を示している。しかし、その能力がどの程度人間に類似しているかは不明である。ここでは、スクリプトベースのストーリーにおけるイベント$b$の処理を研究します。私たちの操作では、Event $A$はテキストの以前のセクションで記述、無効化、または省略されます。まず,人間は論理的条件下(A \rightarrow B$)よりも,因果的衝突が存在する場合(A \rightarrow B$)の読解時間が有意に長いことを示した。しかし、A原因が明記されていない場合の読解時間は類似しており、人間がスクリプトの知識から容易にB事象を推測できることを示している。次に、同じデータ上でさまざまなLSMをテストし、モデルが人間の行動をどの程度再現するかを確認しました。私たちの実験は 1) GPT-3 や Vicuna のような最近の LLM は、$\neg A \rightarrow B$ 条件における人間の行動と相関している。 2) この相関にもかかわらず、すべてのモデルは、$nil \rightarrow b$が$\neg a \rightarrow b$よりも意外ではないと予測できない。私たちのコードと収集したデータセットは、https://github.com/tony-hong/causal-scriptで利用可能です。

関連論文リスト

Zero-Shot Attribution for Large Language Models: A Distribution Testing Approach [19.455425068600665]
仮説テストを用いて言語モデルが生成したコードを帰属させ、確立した手法と保証を活用するという課題について検討する。分散テスト問題として属性をフレーム化するゼロショット属性ツールである$mathsfAnubis$を紹介した。
論文参考訳（メタデータ） (2025-06-25T07:37:16Z)
Language Models May Verbatim Complete Text They Were Not Explicitly Trained On [97.3414396208613]
我々は、$n$-gram ベースのメンバシップ定義を効果的にゲームできることを示す。会員定義に対して$n$の1つの実行可能な選択を見つけることは困難であることを示す。以上の結果から,n$-gramの会員シップが不十分であることが示唆された。
論文参考訳（メタデータ） (2025-03-21T19:57:04Z)
Zero-Shot Statistical Tests for LLM-Generated Text Detection using Finite Sample Concentration Inequalities [13.657259851747126]
コンテンツの証明は、教育機関、ソーシャルメディアプラットフォーム、企業など、多くの組織の機能に不可欠である。 LLM(Large Language Models)が生成するテキストが、人間が生成したコンテンツとほとんど区別できないようになるにつれて、この問題はますます難しくなってきている。テキスト長の増加に伴い,テストのI型およびII型エラーが指数関数的に減少することを示す。我々の研究は、有害または偽のLCM生成テキストの起源を確実に発見することを可能にし、新たなAI規制に対する誤った情報やコンプライアンスに対抗するのに役立ちます。
論文参考訳（メタデータ） (2025-01-04T23:51:43Z)
Cross-validating causal discovery via Leave-One-Variable-Out [11.891940572224783]
私たちは"Leave-One-Variable-Out (LOVO)"予測を使い、$Y$は$X$から推論されるが、$X$と$Y$は共同で観測されることはない。 Acyclic Directed Mixed Graphs (ADMGs) という形で、2つの部分集合上の因果モデルが、しばしば$X$ と $Y$ の依存関係に関する結論を導くことを示した。この予測誤差は、$P(X, Y)$が利用可能であると仮定され、$X$と$Y$がfalの目的のために省略されているため推定できる。
論文参考訳（メタデータ） (2024-11-08T15:15:34Z)
Reasoning Robustness of LLMs to Adversarial Typographical Errors [49.99118660264703]
大規模言語モデル(LLM)は、Chain-of-Thought(CoT)プロンプトを使用した推論において、印象的な機能を示している。本研究では,LLMのタイポグラフィ的誤りに対するロバスト性について検討する。我々は,クエリに重要な単語の型を反復的にサンプリングし,攻撃に成功しそうな編集を選択する,Adversarial Typo Attack(texttATA$)アルゴリズムを設計する。
論文参考訳（メタデータ） (2024-11-08T05:54:05Z)
Great Memory, Shallow Reasoning: Limits of $k$NN-LMs [71.73611113995143]
検索とnext-word予測を統合した$k$NN-LMsは、言語モデリングにおいて強力な性能を示している。この改良された情報リコール能力が、本当に下流の能力に変換されるかどうかを問う。
論文参考訳（メタデータ） (2024-08-21T17:59:05Z)
Stacking Your Transformers: A Closer Look at Model Growth for Efficient LLM Pre-Training [42.89066583603415]
この作業では、3つの重要な$textitO$bstacleを識別する: 包括的な評価の欠如、(textitO$2) スケーリングのためのテストされていない生存性、(textitO$3) 経験的ガイドラインの欠如。 G_textstack$と呼ばれる深い積み重ね演算子は、トレーニングにおいて顕著な加速を示し、損失が減少し、全体的な性能が向上することを示した。
論文参考訳（メタデータ） (2024-05-24T08:00:00Z)
Many-Shot Regurgitation (MSR) Prompting [26.9991760335222]
大規模言語モデル (LLM) において, 暗黙的コンテンツ再現を検証するための新たなブラックボックスメンバシップ推論攻撃フレームワークであるMulti-Shot Regurgitation (MSR) を導入した。 MSRプロンプトは、入力テキストを複数のセグメントに分割し、ユーザと言語モデルの間の一連の偽の会話ラウンドを含む単一のプロンプトを作成して、動詞の反復を誘発する。 MSRをウィキペディアの記事やオープン教育リソース(OER)教科書など多様なテキストソースに適用し,高品質な事実コンテンツを提供する。
論文参考訳（メタデータ） (2024-05-13T19:22:40Z)
Towards a Theoretical Understanding of the 'Reversal Curse' via Training Dynamics [45.69328374321502]
自動回帰型大言語モデル(LLM)は、多くの複雑な推論タスクを解くのに優れた能力を示す。 LLM は、2つの文が意味的に同一であっても、推論中に '$B get A$' と結論付けることができない。 2つの自己回帰モデルに対する勾配降下のトレーニング力学を用いて、理論的に逆の呪いを解析する。
論文参考訳（メタデータ） (2024-05-07T21:03:51Z)
Language models scale reliably with over-training and on downstream tasks [121.69867718185125]
スケーリング法則は、高価なトレーニング実行を引き出すための有用なガイドである。しかし、現在の研究と言語モデルがどのように訓練されているかには差がある。対照的に、スケーリング法則は主に推論における損失を予測するが、モデルは通常下流のタスクのパフォーマンスで比較される。
論文参考訳（メタデータ） (2024-03-13T13:54:00Z)
Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文参考訳（メタデータ） (2023-06-09T12:09:15Z)
Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。 ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文参考訳（メタデータ） (2023-05-22T06:45:02Z)
Blessing of Class Diversity in Pre-training [54.335530406959435]
事前学習タスクのクラスが十分に多種多様である場合、事前学習は下流タスクのサンプル効率を大幅に向上させることができることを示す。我々の証明は、合成関数クラスに対するベクトル形式ラデマッハ複雑性連鎖則と修正自己調和条件に依存している。
論文参考訳（メタデータ） (2022-09-07T20:10:12Z)
Mediated Uncoupled Learning: Learning Functions without Direct Input-output Correspondences [80.95776331769899]
ペア化されたデータがない場合、$X$から$Y$を予測するタスクを考えます。単純なアプローチは、$S_X$で$U$から$U$を予測し、$S_Y$で$U$から$Y$を予測することである。我々は$U$を予測しない新しい方法を提案するが、$f(X)$と$S_X$をトレーニングすることで$Y = f(X)$を直接学習し、$h(U)$を予測する。
論文参考訳（メタデータ） (2021-07-16T22:13:29Z)
proScript: Partially Ordered Scripts Generation via Pre-trained Language Models [49.03193243699244]
我々は、トレーニング済みのニューラルネットワークモデル(LM)が高品質なスクリプトを生成するために微調整できることを初めて実証した。クラウドソースされた部分的に順序付けられたスクリプト(proScriptという名前)を収集しました。私たちの実験では、これまでのスクリプトコレクションの障壁を克服するための新しいアプローチを示す(例えば、タスク(i)中のf1=75.7)。
論文参考訳（メタデータ） (2021-04-16T17:35:10Z)
Faster Uncertainty Quantification for Inverse Problems with Conditional Normalizing Flows [0.9176056742068814]
逆問題では、ペア化されたサンプル$(x,y)sim p_X,Y(x,y)$で、$y$は物理系の部分的な観測であることが多い。条件付きジェネレータ$q_theta(x|y)$をトレーニングするために,フローとジョイントデータを正規化する2段階のスキームを提案する。
論文参考訳（メタデータ） (2020-07-15T20:36:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。