Fugu-MT 論文翻訳(概要): Using Counterfactual Tasks to Evaluate the Generality of Analogical Reasoning in Large Language Models

論文の概要: Using Counterfactual Tasks to Evaluate the Generality of Analogical Reasoning in Large Language Models

arxiv url: http://arxiv.org/abs/2402.08955v1
Date: Wed, 14 Feb 2024 05:52:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-15 16:42:27.656789
Title: Using Counterfactual Tasks to Evaluate the Generality of Analogical Reasoning in Large Language Models
Title（参考訳）: 対物課題を用いた大規模言語モデルにおけるアナロジー推論の一般性の評価
Authors: Martha Lewis and Melanie Mitchell
Abstract要約: 大型言語モデル(LLMs)において従来主張されていた類推能力の一般性について検討する。すべての問題に対して人間のパフォーマンスは高いままであるが、GPTモデルの性能は反ファクトセットで急激に低下している。
参考スコア（独自算出の注目度）: 7.779982757267302
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Large language models (LLMs) have performed well on several reasoning benchmarks, including ones that test analogical reasoning abilities. However, it has been debated whether they are actually performing humanlike abstract reasoning or instead employing less general processes that rely on similarity to what has been seen in their training data. Here we investigate the generality of analogy-making abilities previously claimed for LLMs (Webb, Holyoak, & Lu, 2023). We take one set of analogy problems used to evaluate LLMs and create a set of "counterfactual" variants-versions that test the same abstract reasoning abilities but that are likely dissimilar from any pre-training data. We test humans and three GPT models on both the original and counterfactual problems, and show that, while the performance of humans remains high for all the problems, the GPT models' performance declines sharply on the counterfactual set. This work provides evidence that, despite previously reported successes of LLMs on analogical reasoning, these models lack the robustness and generality of human analogy-making.
Abstract（参考訳）: 大規模言語モデル(llm)は、類似推論能力をテストするものを含むいくつかの推論ベンチマークでうまく機能している。しかし、実際には人間のような抽象的な推論を行うのか、トレーニングデータで見られるものと類似性に依存する一般的なプロセスを採用するのかは議論されている。本稿では LLM に対して以前主張された類推能力の一般性を検討する(Webb, Holyoak, & Lu, 2023)。我々は、LLMを評価し、同じ抽象的推論能力をテストするが、事前学習データと異なるであろう一連の「数値的」変分変換を生成するために用いられる類推問題を1組とみなす。ヒトと3つのGPTモデルを原問題と反ファクト問題の両方でテストし、全ての問題に対して人間の性能は高いが、GPTモデルの性能は反ファクト問題に対して急激に低下することを示した。この研究は、以前報告されたアナログ推論におけるLSMの成功にもかかわらず、これらのモデルが人間のアナログ生成の堅牢性と一般性を欠いているという証拠を提供する。

関連論文リスト

Modeling Understanding of Story-Based Analogies Using Large Language Models [1.4999444543328293]
大規模言語モデルの最近の進歩は、様々なタスクにおける人間の認識のマッチングに近づきつつある。これらのモデルは、アナログの検出とマッピングにおいて、人間のパフォーマンスとどの程度うまく一致しますか?
論文参考訳（メタデータ） (2025-07-15T03:40:21Z)
Evaluating the Logical Reasoning Abilities of Large Reasoning Models [15.009205651973666]
大規模な推論モデルにおける論理的推論を評価するためのベンチマークであるLogiEvalを紹介する。 LogiEvalは様々な推論タイプ(帰納的、帰納的、類推的、帰納的)とタスク形式(論理的シーケンス、引数解析など)にまたがる。実験により,現代の推論モデルでは,4選択の議論解析問題や類似推論において,人間の性能を上回っていることがわかった。解析の結果,人為的性能はモデル故障分布を反映しないことがわかった。
論文参考訳（メタデータ） (2025-05-17T05:36:14Z)
Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文参考訳（メタデータ） (2025-04-10T04:09:47Z)
Self-supervised Analogical Learning using Language Models [59.64260218737556]
自己教師型アナログ学習フレームワークであるSALを提案する。 SALは人間の類推過程を模倣し、高品質な記号解を明示的に伝達するようモデルを訓練する。得られたモデルは、幅広い推論ベンチマークでベース言語モデルより優れていることを示す。
論文参考訳（メタデータ） (2025-02-03T02:31:26Z)
JustLogic: A Comprehensive Benchmark for Evaluating Deductive Reasoning in Large Language Models [51.99046112135311]
我々は、大言語モデルの厳密な評価のための合成推論ベンチマークであるJustLogicを紹介する。 JustLogicは非常に複雑で、多様な言語パターン、語彙、引数構造を生成することができる。実験の結果,ほとんどのSOTA (State-of-the-art (SOTA) LLMは人体平均よりも著しく低下していることがわかった。
論文参考訳（メタデータ） (2025-01-24T15:49:10Z)
Critical-Questions-of-Thought: Steering LLM reasoning with Argumentative Querying [0.3659498819753633]
State-of-the-art Large Language Model (LLM) は論理的および数学的推論を行う際にも苦戦している。本稿では、議論論に関する文献からの批判的質問の概念を利用し、特にトゥールミンの議論モデルに焦点を当てる。これらの重要な質問を取り入れることで,LLMの推論能力が向上することを示す。
論文参考訳（メタデータ） (2024-12-19T18:51:30Z)
Evaluating the Robustness of Analogical Reasoning in Large Language Models [6.5855735579366685]
LLMのアナログ生成能力のロバスト性について検討した。我々は,従来の類推問題に対するロバスト性について,人間とGPTモデルを検証した。人間とは異なり、GPTモデルの性能は答え順序の影響を受けやすい。
論文参考訳（メタデータ） (2024-11-21T15:25:08Z)
A Comparative Study on Reasoning Patterns of OpenAI's o1 Model [69.08287909042421]
OpenAIのo1モデルは、ほとんどのデータセットで最高のパフォーマンスを実現しています。また、いくつかの推論ベンチマークについて詳細な分析を行う。
論文参考訳（メタデータ） (2024-10-17T15:09:03Z)
Evaluating Consistency and Reasoning Capabilities of Large Language Models [0.0]
大規模言語モデル(LLM)は現在、学術、研究、ビジネス、金融など様々な分野で広く使われている。広く採用されているにもかかわらず、これらのモデルはしばしば誤った誤解を招く情報を生み出し、幻覚の傾向を示す。本稿では,パブリックおよびプロプライエタリLLMの整合性と推論能力を評価・比較することを目的とする。
論文参考訳（メタデータ） (2024-04-25T10:03:14Z)
AnaloBench: Benchmarking the Identification of Abstract and Long-context Analogies [19.613777134600408]
アナロジー思考は、人間が創造的な方法で問題を解決することを可能にする。言語モデル(LM)も同じことができますか? ベンチマークアプローチは、人間に共通するこの能力の側面に焦点を当てます。
論文参考訳（メタデータ） (2024-02-19T18:56:44Z)
LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。 GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文参考訳（メタデータ） (2024-01-01T13:53:53Z)
Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models [115.501751261878]
人為的なデータに基づく微調整言語モデル(LM)が普及している。我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。 ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
論文参考訳（メタデータ） (2023-12-11T18:17:43Z)
CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。 LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文参考訳（メタデータ） (2023-11-29T08:29:54Z)
A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文参考訳（メタデータ） (2023-11-14T07:13:10Z)
Can language models learn analogical reasoning? Investigating training objectives and comparisons to human performance [0.0]
我々は、基本的なアナロジー推論を学習するいくつかの方法を試し、特に人間のアナロジー推論を評価するために使われるものよりも典型的なアナロジーに焦点をあてる。実験の結果,少量のデータであっても,モデルが類似推論を学習できることが判明した。
論文参考訳（メタデータ） (2023-10-09T10:34:38Z)
Response: Emergent analogical reasoning in large language models [0.034530027457862]
GPT-3は、オリジナルのタスクの最も単純なバリエーションを解決するのに失敗するが、人間のパフォーマンスは、修正されたすべてのバージョンで一貫して高い。ゼロショット推論などのヒューマンライクな推論の主張を強化するためには、データ記憶を除外するアプローチを開発することが重要である。
論文参考訳（メタデータ） (2023-08-30T16:17:26Z)
A comprehensive comparative evaluation and analysis of Distributional Semantic Models [61.41800660636555]
我々は、静的DSMによって生成されたり、BERTによって生成された文脈化されたベクトルを平均化して得られるような、型分布ベクトルの包括的評価を行う。その結果、予測ベースモデルの優越性は現実よりも明らかであり、ユビキタスではないことが明らかとなった。我々は認知神経科学からRepresentational similarity Analysis(RSA)の方法論を借りて、分布モデルによって生成された意味空間を検査する。
論文参考訳（メタデータ） (2021-05-20T15:18:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。