Fugu-MT 論文翻訳(概要): Do Language Models Exhibit the Same Cognitive Biases in Problem Solving as Human Learners?

論文の概要: Do Language Models Exhibit the Same Cognitive Biases in Problem Solving as Human Learners?

arxiv url: http://arxiv.org/abs/2401.18070v1
Date: Wed, 31 Jan 2024 18:48:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-01 13:28:30.566112
Title: Do Language Models Exhibit the Same Cognitive Biases in Problem Solving as Human Learners?
Title（参考訳）: 言語モデルは、人間の学習者と同じ問題解決における認知バイアスを示すか?
Authors: Andreas Opedal, Alessandro Stolfo, Haruki Shirakami, Ying Jiao, Ryan Cotterell, Bernhard Sch\"olkopf, Abulhair Saparov, Mrinmaya Sachan
Abstract要約: 本研究では,大言語モデル(LLM)の偏りを,算術語問題を解く際に,子どもに知られているものと関連づけて検討する。我々はこれらの各テストに対して,問題特徴のきめ細かい制御を可能にするニューロシンボリック手法を用いて,新しい単語問題セットを生成する。
参考スコア（独自算出の注目度）: 118.37810735783991
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: There is increasing interest in employing large language models (LLMs) as cognitive models. For such purposes, it is central to understand which cognitive properties are well-modeled by LLMs, and which are not. In this work, we study the biases of LLMs in relation to those known in children when solving arithmetic word problems. Surveying the learning science literature, we posit that the problem-solving process can be split into three distinct steps: text comprehension, solution planning and solution execution. We construct tests for each one in order to understand which parts of this process can be faithfully modeled by current state-of-the-art LLMs. We generate a novel set of word problems for each of these tests, using a neuro-symbolic method that enables fine-grained control over the problem features. We find evidence that LLMs, with and without instruction-tuning, exhibit human-like biases in both the text-comprehension and the solution-planning steps of the solving process, but not during the final step which relies on the problem's arithmetic expressions (solution execution).
Abstract（参考訳）: 認知モデルとして大規模言語モデル(LLM)を採用することへの関心が高まっている。このような目的のために、どの認知特性がllmによってよくモデル化され、どれがそうでないかを理解することが中心である。本研究では, 算術語問題を解く際に, 子どもに知られている問題とllmのバイアスについて検討する。学習科学文献を調査した結果,問題解決プロセスは,テキスト理解,ソリューション計画,ソリューション実行という3つの異なるステップに分けられることが示唆された。このプロセスのどの部分が現在のLLMで忠実にモデル化できるかを理解するために、それぞれのテストを構築します。問題の特徴をきめ細かな制御を可能にするニューロシンボリック法を用いて,これらのテスト毎に新たな単語問題を生成する。 llmは,命令のチューニングの有無に関わらず,問題解決過程のテキスト理解と解計画段階の両方において人間のようなバイアスを示すが,問題の算術式(解法実行)に依存する最終段階の間はそうではない。

関連論文リスト

Large Language Models and Mathematical Reasoning Failures [1.6114012813668932]
本稿では,50の高校レベルの単語問題を用いた大規模言語モデル(LLM)の数学的推論能力について検討する。最終回答と解決手順の両方を厳格に分析して、推論の失敗を特定します。より新しいモデル(例えば、o3-mini、deepseek-r1)はより精度が高いが、全てのモデルは空間的推論、戦略的計画、算術における誤りを示す。
論文参考訳（メタデータ） (2025-02-17T09:07:32Z)
Do Large Language Models Truly Grasp Mathematics? An Empirical Exploration From Cognitive Psychology [13.964263002704582]
提案手法は,Chains of Thoughtプロンプトを用いても,修正されたCRT問題を解く際の誤り率が高いことを示す。具体的には、従来の質問と比べて平均精度が最大50%低下した。この発見は、LLMが人間に匹敵する真の数学的推論能力を持っているという信念に挑戦する。
論文参考訳（メタデータ） (2024-10-19T05:01:56Z)
BloomWise: Enhancing Problem-Solving capabilities of Large Language Models using Bloom's-Taxonomy-Inspired Prompts [59.83547898874152]
我々は,Bloomの分類にインスパイアされた新しいプロンプト技術であるBloomWiseを導入し,Large Language Models(LLMs)の性能を向上させる。より洗練された認知スキルを身につける必要性に関する決定は、LLMによる自己評価に基づいている。 4つの一般的な算数推論データセットの広範な実験において,提案手法の有効性を実証した。
論文参考訳（メタデータ） (2024-10-05T09:27:52Z)
Eliciting Problem Specifications via Large Language Models [4.055489363682198]
大型言語モデル(LLM)は、問題クラスを半形式仕様にマッピングするために利用することができる。認知システムは、問題空間仕様を使用して、問題クラスからの問題の複数のインスタンスを解決することができる。
論文参考訳（メタデータ） (2024-05-20T16:19:02Z)
Exploring the Compositional Deficiency of Large Language Models in Mathematical Reasoning [30.40415945003794]
数学的推論における大規模言語モデル(LLM)の構成性について検討する。論理的欠陥の問題は実世界では非常に稀であるため、これらはLLMの「見えない」ケースを表している。実験の結果, LLM には必要知識の双方の構成要素があるが, これらの新規事例を扱うために, テキストbfspontanely に組み合わせることはできないことがわかった。
論文参考訳（メタデータ） (2024-05-05T16:35:30Z)
Benchmarking Hallucination in Large Language Models based on Unanswerable Math Word Problem [58.3723958800254]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて非常に効果的である。それらは幻覚と呼ばれる曖昧な文脈で信頼できない予想を生じさせる可能性がある。本稿では,不問答語問題(MWP)に基づく質問回答(QA)におけるLLM幻覚評価手法を提案する。
論文参考訳（メタデータ） (2024-03-06T09:06:34Z)
FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。 FAC$2$E, FAC$2$Eについて述べる。
論文参考訳（メタデータ） (2024-02-29T21:05:37Z)
Language Models can be Logical Solvers [99.40649402395725]
論理解法の推論過程を直接エミュレートする新しい言語モデルであるLoGiPTを導入する。 LoGiPTは、導出的ソルバの見えない推論過程を明らかにして精錬することから導かれる、新しく構築された命令チューニングデータセットに基づいて微調整される。
論文参考訳（メタデータ） (2023-11-10T16:23:50Z)
Three Questions Concerning the Use of Large Language Models to Facilitate Mathematics Learning [4.376598435975689]
本稿では,学生の数学的問題解決能力を高めるために,大規模言語モデルを採用する際の課題について論じる。 LLMは間違った推論プロセスを生成することができ、また、学生の回答を正そうとするときに与えられた質問の理性を理解するのに困難を示す。
論文参考訳（メタデータ） (2023-10-20T16:05:35Z)
PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。 PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文参考訳（メタデータ） (2022-11-18T18:56:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。