論文の概要: Evaluating the Robustness of Analogical Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2411.14215v1
- Date: Thu, 21 Nov 2024 15:25:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:20:48.464554
- Title: Evaluating the Robustness of Analogical Reasoning in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるアナロジカル推論のロバスト性の評価
- Authors: Martha Lewis, Melanie Mitchell,
- Abstract要約: LLMのアナログ生成能力のロバスト性について検討した。
我々は,従来の類推問題に対するロバスト性について,人間とGPTモデルを検証した。
人間とは異なり、GPTモデルの性能は答え順序の影響を受けやすい。
- 参考スコア(独自算出の注目度): 6.5855735579366685
- License:
- Abstract: LLMs have performed well on several reasoning benchmarks, including ones that test analogical reasoning abilities. However, there is debate on the extent to which they are performing general abstract reasoning versus employing non-robust processes, e.g., that overly rely on similarity to pre-training data. Here we investigate the robustness of analogy-making abilities previously claimed for LLMs on three of four domains studied by Webb, Holyoak, and Lu (2023): letter-string analogies, digit matrices, and story analogies. For each domain we test humans and GPT models on robustness to variants of the original analogy problems that test the same abstract reasoning abilities but are likely dissimilar from tasks in the pre-training data. The performance of a system that uses robust abstract reasoning should not decline substantially on these variants. On simple letter-string analogies, we find that while the performance of humans remains high for two types of variants we tested, the GPT models' performance declines sharply. This pattern is less pronounced as the complexity of these problems is increased, as both humans and GPT models perform poorly on both the original and variant problems requiring more complex analogies. On digit-matrix problems, we find a similar pattern but only on one out of the two types of variants we tested. On story-based analogy problems, we find that, unlike humans, the performance of GPT models are susceptible to answer-order effects, and that GPT models also may be more sensitive than humans to paraphrasing. This work provides evidence that LLMs often lack the robustness of zero-shot human analogy-making, exhibiting brittleness on most of the variations we tested. More generally, this work points to the importance of carefully evaluating AI systems not only for accuracy but also robustness when testing their cognitive capabilities.
- Abstract(参考訳): LLMは、類似推論能力をテストするものなど、いくつかの推論ベンチマークでよく機能している。
しかし、事前学習データとの類似性に過度に依存する非破壊的プロセス(例えば、非破壊的プロセス)に比較して、一般的な抽象的推論がどの程度実行されているかについての議論がある。
本稿では、Webb, Holyoak, Lu (2023) が研究した4つの領域のうち、3つの領域において、以前に LLM に対して主張された類推能力のロバスト性について考察する。
各ドメインに対して、同じ抽象的推論能力をテストするが、事前学習データのタスクと異なる可能性のある、元のアナロジー問題に対する堅牢性について、人間とGPTモデルをテストします。
堅牢な抽象的推論を用いたシステムの性能は、これらの変種に対して著しく低下するべきではない。
単純な文字列の類推では、テストした2種類の変種に対して人間の性能は高いままであるが、GPTモデルの性能は急激に低下している。
このパターンは、人間とGPTモデルの両方が、より複雑な類似性を必要とする元の問題と変種問題の両方で不十分に機能するため、これらの問題の複雑さが増大するので、あまり顕著ではない。
桁行列問題では、類似したパターンを見つけるが、テストした2種類の変種のうちの1つに限られる。
物語に基づく類推問題では、人間とは異なり、GPTモデルの性能は回答順序の影響を受けやすいこと、また、GPTモデルの方が人間が言い換えるよりも敏感であることが分かる。
この研究は、LLMがゼロショットの人間の類推の頑丈さを欠いていることをしばしば示しており、テストしたほとんどのバリエーションに脆さが示されています。
より一般的に、この研究は、AIシステムの正確性だけでなく、認知能力をテストする際の堅牢性についても慎重に評価することの重要性を指摘する。
関連論文リスト
- AnaloBench: Benchmarking the Identification of Abstract and Long-context Analogies [19.613777134600408]
アナロジー思考は、人間が創造的な方法で問題を解決することを可能にする。
言語モデル(LM)も同じことができますか?
ベンチマークアプローチは、人間に共通するこの能力の側面に焦点を当てます。
論文 参考訳(メタデータ) (2024-02-19T18:56:44Z) - Using Counterfactual Tasks to Evaluate the Generality of Analogical
Reasoning in Large Language Models [7.779982757267302]
大型言語モデル(LLMs)において従来主張されていた類推能力の一般性について検討する。
すべての問題に対して人間のパフォーマンスは高いままであるが、GPTモデルの性能は反ファクトセットで急激に低下している。
論文 参考訳(メタデータ) (2024-02-14T05:52:23Z) - StoryAnalogy: Deriving Story-level Analogies from Large Language Models
to Unlock Analogical Understanding [72.38872974837462]
大規模ストーリーレベルの類似語コーパスを構築することにより,類似語を識別・生成する能力を評価する。
textscStory Analogyには、さまざまなドメインから24Kストーリーペアが含まれており、拡張された構造マッピング理論の2つの類似点に人間のアノテーションがある。
我々は、textscStory Analogyのデータは、大言語モデルにおけるアナログ生成の品質を向上させることができることを観察した。
論文 参考訳(メタデータ) (2023-10-19T16:29:23Z) - Response: Emergent analogical reasoning in large language models [0.034530027457862]
GPT-3は、オリジナルのタスクの最も単純なバリエーションを解決するのに失敗するが、人間のパフォーマンスは、修正されたすべてのバージョンで一貫して高い。
ゼロショット推論などのヒューマンライクな推論の主張を強化するためには、データ記憶を除外するアプローチを開発することが重要である。
論文 参考訳(メタデータ) (2023-08-30T16:17:26Z) - ANALOGYKB: Unlocking Analogical Reasoning of Language Models with A Million-scale Knowledge Base [51.777618249271725]
ANALOGYKBは、既存の知識グラフ(KGs)から派生した100万スケールのアナロジー知識ベースである
1)KGから直接抽出できる同一関係のアナロジー、2)大きな言語モデル(LLM)によって実現される選択とフィルタリングパイプラインと識別される類似関係のアナロジーである。
論文 参考訳(メタデータ) (2023-05-10T09:03:01Z) - Emergent Analogical Reasoning in Large Language Models [1.5469452301122177]
GPT-3は、多くの設定において、抽象的なパターン誘導、マッチング、さらには人間の能力を超える、驚くほど強力な能力を持っていることを示す。
以上の結果から, GPT-3のような大規模言語モデルでは, 幅広い類似問題に対するゼロショット解を求める能力が得られている。
論文 参考訳(メタデータ) (2022-12-19T00:04:56Z) - A Causal Framework to Quantify the Robustness of Mathematical Reasoning
with Language Models [81.15974174627785]
入力空間における直接的介入に対する頑健さと感度の観点から言語モデルの振舞いについて検討する。
しかし, GPT-3 Davinciモデル(175B)は, 他のGPTモデルと比較して, 頑健さと感度の両面で劇的な改善を実現している。
論文 参考訳(メタデータ) (2022-10-21T15:12:37Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - A comprehensive comparative evaluation and analysis of Distributional
Semantic Models [61.41800660636555]
我々は、静的DSMによって生成されたり、BERTによって生成された文脈化されたベクトルを平均化して得られるような、型分布ベクトルの包括的評価を行う。
その結果、予測ベースモデルの優越性は現実よりも明らかであり、ユビキタスではないことが明らかとなった。
我々は認知神経科学からRepresentational similarity Analysis(RSA)の方法論を借りて、分布モデルによって生成された意味空間を検査する。
論文 参考訳(メタデータ) (2021-05-20T15:18:06Z) - Visual analogy: Deep learning versus compositional models [3.2435333321661983]
視覚アナロジーにおけるヒューマンパフォーマンスと代替計算モデルの性能を比較した。
人間の推論者は、すべての問題タイプに対して高い精度を達成したが、いくつかの条件でより多くの誤りを犯した。
部分表現に基づく合成モデルは、深層学習モデルではなく、人間の推論と類似した質的な性能を生んだ。
論文 参考訳(メタデータ) (2021-05-14T20:56:02Z) - Few-shot Visual Reasoning with Meta-analogical Contrastive Learning [141.2562447971]
本稿では,類似推論に頼って,数ショット(または低ショット)の視覚推論問題を解くことを提案する。
両領域の要素間の構造的関係を抽出し、類似学習と可能な限り類似するように強制する。
RAVENデータセット上での本手法の有効性を検証し, トレーニングデータが少ない場合, 最先端の手法より優れることを示す。
論文 参考訳(メタデータ) (2020-07-23T14:00:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。