論文の概要: Using Counterfactual Tasks to Evaluate the Generality of Analogical
Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2402.08955v1
- Date: Wed, 14 Feb 2024 05:52:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 16:42:27.656789
- Title: Using Counterfactual Tasks to Evaluate the Generality of Analogical
Reasoning in Large Language Models
- Title(参考訳): 対物課題を用いた大規模言語モデルにおけるアナロジー推論の一般性の評価
- Authors: Martha Lewis and Melanie Mitchell
- Abstract要約: 大型言語モデル(LLMs)において従来主張されていた類推能力の一般性について検討する。
すべての問題に対して人間のパフォーマンスは高いままであるが、GPTモデルの性能は反ファクトセットで急激に低下している。
- 参考スコア(独自算出の注目度): 7.779982757267302
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) have performed well on several reasoning
benchmarks, including ones that test analogical reasoning abilities. However,
it has been debated whether they are actually performing humanlike abstract
reasoning or instead employing less general processes that rely on similarity
to what has been seen in their training data. Here we investigate the
generality of analogy-making abilities previously claimed for LLMs (Webb,
Holyoak, & Lu, 2023). We take one set of analogy problems used to evaluate LLMs
and create a set of "counterfactual" variants-versions that test the same
abstract reasoning abilities but that are likely dissimilar from any
pre-training data. We test humans and three GPT models on both the original and
counterfactual problems, and show that, while the performance of humans remains
high for all the problems, the GPT models' performance declines sharply on the
counterfactual set. This work provides evidence that, despite previously
reported successes of LLMs on analogical reasoning, these models lack the
robustness and generality of human analogy-making.
- Abstract(参考訳): 大規模言語モデル(llm)は、類似推論能力をテストするものを含むいくつかの推論ベンチマークでうまく機能している。
しかし、実際には人間のような抽象的な推論を行うのか、トレーニングデータで見られるものと類似性に依存する一般的なプロセスを採用するのかは議論されている。
本稿では LLM に対して以前主張された類推能力の一般性を検討する(Webb, Holyoak, & Lu, 2023)。
我々は、LLMを評価し、同じ抽象的推論能力をテストするが、事前学習データと異なるであろう一連の「数値的」変分変換を生成するために用いられる類推問題を1組とみなす。
ヒトと3つのGPTモデルを原問題と反ファクト問題の両方でテストし、全ての問題に対して人間の性能は高いが、GPTモデルの性能は反ファクト問題に対して急激に低下することを示した。
この研究は、以前報告されたアナログ推論におけるLSMの成功にもかかわらず、これらのモデルが人間のアナログ生成の堅牢性と一般性を欠いているという証拠を提供する。
関連論文リスト
- AnaloBench: Benchmarking the Identification of Abstract and Long-context
Analogies [20.35137053775108]
アナロジー思考は、人間が創造的な方法で問題を解決し、難しい概念を把握し、より効果的にアイデアを表現できるようにする。
言語モデル(LM)における類似推論能力を決定するベンチマークAnALOBENCHを提案する。
我々のベンチマーク手法は、人間に共通するこの能力の側面に焦点を当てている: (i) 大量の情報から関連する経験を思い出し、 (ii) 複雑で長いシナリオに類推的推論を適用する。
論文 参考訳(メタデータ) (2024-02-19T18:56:44Z) - Dive into the Chasm: Probing the Gap between In- and Cross-Topic
Generalization [66.4659448305396]
本研究は,3つの探索型実験を用いて種々のLMを解析し,In- vs. クロストピック一般化ギャップの背景にある理由を明らかにした。
はじめに、一般化ギャップと埋め込み空間の堅牢性は、LM間で大きく異なることを示した。
論文 参考訳(メタデータ) (2024-02-02T12:59:27Z) - Beyond Human Data: Scaling Self-Training for Problem-Solving with
Language Models [116.19321613273311]
人為的なデータに基づく微調整言語モデル(LM)が普及している。
我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。
ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-11T18:17:43Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [113.72984199026094]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
生成モデルのカウンターファクトの能力を効果的に評価するために,革新的な評価指標であるLogicAware Counterfactual Scoreを提案する。
分析の結果,提案手法は人間の好みとよく一致していることがわかった。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - A Closer Look at the Self-Verification Abilities of Large Language
Models in Logical Reasoning [79.14479982371984]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - Can language models learn analogical reasoning? Investigating training
objectives and comparisons to human performance [0.0]
我々は、基本的なアナロジー推論を学習するいくつかの方法を試し、特に人間のアナロジー推論を評価するために使われるものよりも典型的なアナロジーに焦点をあてる。
実験の結果,少量のデータであっても,モデルが類似推論を学習できることが判明した。
論文 参考訳(メタデータ) (2023-10-09T10:34:38Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - Emergent Analogical Reasoning in Large Language Models [1.5469452301122177]
GPT-3は、多くの設定において、抽象的なパターン誘導、マッチング、さらには人間の能力を超える、驚くほど強力な能力を持っていることを示す。
以上の結果から, GPT-3のような大規模言語モデルでは, 幅広い類似問題に対するゼロショット解を求める能力が得られている。
論文 参考訳(メタデータ) (2022-12-19T00:04:56Z) - A comprehensive comparative evaluation and analysis of Distributional
Semantic Models [61.41800660636555]
我々は、静的DSMによって生成されたり、BERTによって生成された文脈化されたベクトルを平均化して得られるような、型分布ベクトルの包括的評価を行う。
その結果、予測ベースモデルの優越性は現実よりも明らかであり、ユビキタスではないことが明らかとなった。
我々は認知神経科学からRepresentational similarity Analysis(RSA)の方法論を借りて、分布モデルによって生成された意味空間を検査する。
論文 参考訳(メタデータ) (2021-05-20T15:18:06Z) - Do Fine-tuned Commonsense Language Models Really Generalize? [8.591839265985412]
厳密な科学的研究を設計・実施することで、一般化問題を詳細に研究する。
実験装置の適度な変更があっても、微調整されたコモンセンス言語モデルがまだうまく一般化していないという明確な証拠が得られます。
論文 参考訳(メタデータ) (2020-11-18T08:52:49Z) - Goodness-of-Fit Test for Mismatched Self-Exciting Processes [18.892845399295254]
我々は、擬似リフタル推定器(QMLE)の古典的統計理論とこの問題に新たな関連性を持たせることにより、自己励振過程の生成モデルのためのGOFテストを開発する。
本稿では,GOFテストのための非パラメトリック自己正規化統計学:一般スコア統計学(GS)について述べる。
論文 参考訳(メタデータ) (2020-06-16T18:31:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。