論文の概要: On Language Models' Sensitivity to Suspicious Coincidences
- arxiv url: http://arxiv.org/abs/2504.09387v1
- Date: Sun, 13 Apr 2025 00:43:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:53:05.508727
- Title: On Language Models' Sensitivity to Suspicious Coincidences
- Title(参考訳): 言語モデルにおける疑わしい共因に対する感性について
- Authors: Sriram Padmanabhan, Kanishka Misra, Kyle Mahowald, Eunsol Choi,
- Abstract要約: 人間はデータに対して誘導的に一般化する際に不審な偶然に敏感である。
言語モデル(LM)の動作に不審な不審な結果が反映されているかどうかを解析する。
- 参考スコア(独自算出の注目度): 47.116749678046745
- License:
- Abstract: Humans are sensitive to suspicious coincidences when generalizing inductively over data, as they make assumptions as to how the data was sampled. This results in smaller, more specific hypotheses being favored over more general ones. For instance, when provided the set {Austin, Dallas, Houston}, one is more likely to think that this is sampled from "Texas Cities" over "US Cities" even though both are compatible. Suspicious coincidence is strongly connected to pragmatic reasoning, and can serve as a testbed to analyze systems on their sensitivity towards the communicative goals of the task (i.e., figuring out the true category underlying the data). In this paper, we analyze whether suspicious coincidence effects are reflected in language models' (LMs) behavior. We do so in the context of two domains: 1) the number game, where humans made judgments of whether a number (e.g., 4) fits a list of given numbers (e.g., 16, 32, 2); and 2) by extending the number game setup to prominent cities. For both domains, the data is compatible with multiple hypotheses and we study which hypothesis is most consistent with the models' behavior. On analyzing five models, we do not find strong evidence for suspicious coincidences in LMs' zero-shot behavior. However, when provided access to the hypotheses space via chain-of-thought or explicit prompting, LMs start to show an effect resembling suspicious coincidences, sometimes even showing effects consistent with humans. Our study suggests that inductive reasoning behavior in LMs can be enhanced with explicit access to the hypothesis landscape.
- Abstract(参考訳): 人間はデータに対して帰納的に一般化する際に不審な偶然に敏感である。
この結果、より一般的な仮説よりも小さく、より具体的な仮説が好まれる。
例えば、集合 {オースティン, ダラス, ヒューストン} が与えられたとき、どちらも互換であるにもかかわらず、「米国都市」よりも「テキサス都市」からサンプリングされたものと考える傾向にある。
予期せぬ偶然はプラグマチックな推論と強く結びついており、タスクのコミュニケーション目標(すなわち、データの背後にある真のカテゴリを解明する)に対するシステムの感度を解析するためのテストベッドとして機能する。
本稿では,言語モデル(LM)の動作に不審な偶然の影響が反映されているかどうかを解析する。
1) 数(eg, 4) が与えられた数(eg, 16, 32, 2) の一覧に適合するかどうかを判断する数ゲーム,2) 数ゲームの設定を著名な都市に拡張する。
両方の領域において、データは複数の仮説と互換性があり、どの仮説がモデルの振る舞いと最も一致しているかを研究する。
5つのモデルの解析において、LMのゼロショット動作に疑わしい偶然の強い証拠は見つからない。
しかし、チェーン・オブ・シンクまたは明示的なプロンプトを通じて仮説空間へのアクセスを提供すると、LMは疑わしい偶然に類似した効果を示し始め、時には人間と一致した効果を示す。
本研究は,LMにおける帰納的推論行動が,仮説の景観への明示的なアクセスによって向上できることを示唆している。
関連論文リスト
- Do Large Language Models Reason Causally Like Us? Even Better? [7.749713014052951]
大きな言語モデル(LLM)は、人間のようなテキストを生成する際、印象的な能力を示している。
我々は,コライダーグラフに基づくタスクを用いて,人間と4つのLDMの因果推論を比較した。
LLMは、モデル、コンテキスト、タスクに基づくアライメントシフトを伴って、人間のようなスペクトルから規範的推論へと因果関係を推論する。
論文 参考訳(メタデータ) (2025-02-14T15:09:15Z) - Can You Learn Semantics Through Next-Word Prediction? The Case of Entailment [36.82878715850013]
Merrillらは、理論上、最適なLMによって予測される文共起確率は、構成文の詳細な関係を反映すべきであると主張している。
本稿では,その理論をニューラルネットワークから包含関係を復号化するために利用できるか検討する。
それらのテストに類似したテストは、自然文間の係り受け関係を復号することができるが、完全には成立しない。
論文 参考訳(メタデータ) (2024-02-21T17:36:07Z) - A Hypothesis-Driven Framework for the Analysis of Self-Rationalising
Models [0.8702432681310401]
我々はベイジアンネットワークを用いて、タスクの解決方法に関する仮説を実装している。
結果のモデルはGPT-3.5と強い類似性は示さない。
今後の作業において、LCM決定をよりよく近似するフレームワークの可能性だけでなく、これの意味についても論じる。
論文 参考訳(メタデータ) (2024-02-07T12:26:12Z) - Visual Abductive Reasoning [85.17040703205608]
帰納的推論は、部分的な観察の可能な限りの可能な説明を求める。
本稿では,日常的な視覚的状況下でのマシンインテリジェンスの帰納的推論能力を調べるために,新たなタスクとデータセットであるVisual Abductive Reasoning(VAR)を提案する。
論文 参考訳(メタデータ) (2022-03-26T10:17:03Z) - Interactive Model with Structural Loss for Language-based Abductive
Reasoning [36.02450824915494]
帰納的自然言語推論タスク(alpha$NLI)は、原因と事象の間の最も明確な説明を推測するために提案される。
我々はこの新モデルを$alpha$NLI: Interactive Model with Structure Loss (IMSL) と命名する。
IMSL は RoBERTa-large Pretrained model で最高性能を達成し,ACC と AUC はそれぞれ約1%,AUC は5% 向上した。
論文 参考訳(メタデータ) (2021-12-01T05:21:07Z) - Nested Counterfactual Identification from Arbitrary Surrogate
Experiments [95.48089725859298]
観測と実験の任意の組み合わせからネスト反事実の同定について検討した。
具体的には、任意のネストされた反事実を非ネストされたものへ写像できる反ファクト的非ネスト定理(英語版)(CUT)を証明する。
論文 参考訳(メタデータ) (2021-07-07T12:51:04Z) - Counterfactual Invariance to Spurious Correlations: Why and How to Pass
Stress Tests [87.60900567941428]
素早い相関」とは、アナリストが重要とすべきでないと考える入力データのある側面に対するモデルの依存である。
機械学習では、これらにはノウ・イ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ」という特徴がある。
因果推論ツールを用いたストレステストについて検討した。
論文 参考訳(メタデータ) (2021-05-31T14:39:38Z) - Causal Expectation-Maximisation [70.45873402967297]
ポリツリーグラフを特徴とするモデルにおいても因果推論はNPハードであることを示す。
我々は因果EMアルゴリズムを導入し、分類的表現変数のデータから潜伏変数の不確かさを再構築する。
我々は、反事実境界が構造方程式の知識なしにしばしば計算できるというトレンドのアイデアには、目立たずの制限があるように思える。
論文 参考訳(メタデータ) (2020-11-04T10:25:13Z) - An Analysis of the Adaptation Speed of Causal Models [80.77896315374747]
最近、Bengioらは、すべての候補モデルの中で、$G$は、あるデータセットから別のデータセットに適応する最速のモデルであると推測した。
最適化からの収束率を用いた原因影響SCMの適応速度について検討する。
驚くべきことに、私たちは反因果モデルが有利である状況を見つけ、初期仮説を偽造する。
論文 参考訳(メタデータ) (2020-05-18T23:48:56Z) - HypoNLI: Exploring the Artificial Patterns of Hypothesis-only Bias in
Natural Language Inference [38.14399396661415]
仮説のみのバイアスの観点から、逆例を導出する。
このような仮説のみのバイアスを軽減するために、人工パターンモデリングを利用する2つのデバイアス手法について検討する。
論文 参考訳(メタデータ) (2020-03-05T16:46:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。