論文の概要: Do Language Models Exhibit the Same Cognitive Biases in Problem Solving
as Human Learners?
- arxiv url: http://arxiv.org/abs/2401.18070v1
- Date: Wed, 31 Jan 2024 18:48:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 13:28:30.566112
- Title: Do Language Models Exhibit the Same Cognitive Biases in Problem Solving
as Human Learners?
- Title(参考訳): 言語モデルは、人間の学習者と同じ問題解決における認知バイアスを示すか?
- Authors: Andreas Opedal, Alessandro Stolfo, Haruki Shirakami, Ying Jiao, Ryan
Cotterell, Bernhard Sch\"olkopf, Abulhair Saparov, Mrinmaya Sachan
- Abstract要約: 本研究では,大言語モデル(LLM)の偏りを,算術語問題を解く際に,子どもに知られているものと関連づけて検討する。
我々はこれらの各テストに対して,問題特徴のきめ細かい制御を可能にするニューロシンボリック手法を用いて,新しい単語問題セットを生成する。
- 参考スコア(独自算出の注目度): 118.37810735783991
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: There is increasing interest in employing large language models (LLMs) as
cognitive models. For such purposes, it is central to understand which
cognitive properties are well-modeled by LLMs, and which are not. In this work,
we study the biases of LLMs in relation to those known in children when solving
arithmetic word problems. Surveying the learning science literature, we posit
that the problem-solving process can be split into three distinct steps: text
comprehension, solution planning and solution execution. We construct tests for
each one in order to understand which parts of this process can be faithfully
modeled by current state-of-the-art LLMs. We generate a novel set of word
problems for each of these tests, using a neuro-symbolic method that enables
fine-grained control over the problem features. We find evidence that LLMs,
with and without instruction-tuning, exhibit human-like biases in both the
text-comprehension and the solution-planning steps of the solving process, but
not during the final step which relies on the problem's arithmetic expressions
(solution execution).
- Abstract(参考訳): 認知モデルとして大規模言語モデル(LLM)を採用することへの関心が高まっている。
このような目的のために、どの認知特性がllmによってよくモデル化され、どれがそうでないかを理解することが中心である。
本研究では, 算術語問題を解く際に, 子どもに知られている問題とllmのバイアスについて検討する。
学習科学文献を調査した結果,問題解決プロセスは,テキスト理解,ソリューション計画,ソリューション実行という3つの異なるステップに分けられることが示唆された。
このプロセスのどの部分が現在のLLMで忠実にモデル化できるかを理解するために、それぞれのテストを構築します。
問題の特徴をきめ細かな制御を可能にするニューロシンボリック法を用いて,これらのテスト毎に新たな単語問題を生成する。
llmは,命令のチューニングの有無に関わらず,問題解決過程のテキスト理解と解計画段階の両方において人間のようなバイアスを示すが,問題の算術式(解法実行)に依存する最終段階の間はそうではない。
関連論文リスト
- Benchmarking Hallucination in Large Language Models based on
Unanswerable Math Word Problem [58.3723958800254]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて非常に効果的である。
それらは幻覚と呼ばれる曖昧な文脈で信頼できない予想を生じさせる可能性がある。
本稿では,不問答語問題(MWP)に基づく質問回答(QA)におけるLLM幻覚評価手法を提案する。
論文 参考訳(メタデータ) (2024-03-06T09:06:34Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by
Dissociating Language and Cognition [57.747888532651]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Caught in the Quicksand of Reasoning, Far from AGI Summit: Evaluating
LLMs' Mathematical and Coding Competency through Ontology-guided
Interventions [50.68293377521595]
大規模言語モデル(LLM)は論理的推論ベンチマークで顕著な結果を示した。
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
質問に対して、すべてのモデルで大幅なパフォーマンス低下を見せています。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z) - Language Models can be Logical Solvers [99.40649402395725]
論理解法の推論過程を直接エミュレートする新しい言語モデルであるLoGiPTを導入する。
LoGiPTは、導出的ソルバの見えない推論過程を明らかにして精錬することから導かれる、新しく構築された命令チューニングデータセットに基づいて微調整される。
論文 参考訳(メタデータ) (2023-11-10T16:23:50Z) - Three Questions Concerning the Use of Large Language Models to
Facilitate Mathematics Learning [4.376598435975689]
本稿では,学生の数学的問題解決能力を高めるために,大規模言語モデルを採用する際の課題について論じる。
LLMは間違った推論プロセスを生成することができ、また、学生の回答を正そうとするときに与えられた質問の理性を理解するのに困難を示す。
論文 参考訳(メタデータ) (2023-10-20T16:05:35Z) - Solving Math Word Problems by Combining Language Models With Symbolic
Solvers [28.010617102877923]
大規模言語モデル(LLM)は複雑な推論と計算を行うために外部ツールと組み合わせることができる。
本稿では,変数と方程式の集合として単語問題を段階的に形式化するLLMと,外部記号解法を併用する手法を提案する。
提案手法は,GSM8Kベンチマークにおける元のPALに匹敵する精度を達成し,ALGEBRAでPALを絶対20%上回る性能を示した。
論文 参考訳(メタデータ) (2023-04-16T04:16:06Z) - MathPrompter: Mathematical Reasoning using Large Language Models [7.953723258038284]
大規模言語モデル (LLM) は算術的推論タスクを解く際の性能に制限がある。
MathPrompterはZero-shot-of- Thoughtプロンプト技術を使って複数の代数式やPython関数を生成し、異なる方法で同じ数学問題を解く。
論文 参考訳(メタデータ) (2023-03-04T04:43:49Z) - PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。
PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。
私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文 参考訳(メタデータ) (2022-11-18T18:56:13Z) - Learning to Generalize for Sequential Decision Making [19.075378799280728]
本稿では,教師による模倣学習手法と,強化学習モデルを自然言語理解モデルに変換する方法を紹介する。
モデルがより速く学習し、より一般化できることを示し、模倣学習と改革の両方を活用する。
論文 参考訳(メタデータ) (2020-10-05T18:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。