Fugu-MT 論文翻訳(概要): Metacognitive Capabilities of LLMs: An Exploration in Mathematical Problem Solving

論文の概要: Metacognitive Capabilities of LLMs: An Exploration in Mathematical Problem Solving

arxiv url: http://arxiv.org/abs/2405.12205v1
Date: Mon, 20 May 2024 17:45:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-21 12:35:30.391758
Title: Metacognitive Capabilities of LLMs: An Exploration in Mathematical Problem Solving
Title（参考訳）: LLMのメタ認知能力:数学的問題解決における探索
Authors: Aniket Didolkar, Anirudh Goyal, Nan Rosemary Ke, Siyuan Guo, Michal Valko, Timothy Lillicrap, Danilo Rezende, Yoshua Bengio, Michael Mozer, Sanjeev Arora,
Abstract要約: そこで我々は,強力なLLMを付与し,有能なスキルラベルを数学の質問に割り当てるための,プロンプト誘導型対話手法を開発した。次に、セマンティッククラスタリングを行い、スキルラベルの粗いファミリーを取得する。これらの粗いスキルラベルは人間に解釈可能である。
参考スコア（独自算出の注目度）: 86.04158840879727
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Metacognitive knowledge refers to humans' intuitive knowledge of their own thinking and reasoning processes. Today's best LLMs clearly possess some reasoning processes. The paper gives evidence that they also have metacognitive knowledge, including ability to name skills and procedures to apply given a task. We explore this primarily in context of math reasoning, developing a prompt-guided interaction procedure to get a powerful LLM to assign sensible skill labels to math questions, followed by having it perform semantic clustering to obtain coarser families of skill labels. These coarse skill labels look interpretable to humans. To validate that these skill labels are meaningful and relevant to the LLM's reasoning processes we perform the following experiments. (a) We ask GPT-4 to assign skill labels to training questions in math datasets GSM8K and MATH. (b) When using an LLM to solve the test questions, we present it with the full list of skill labels and ask it to identify the skill needed. Then it is presented with randomly selected exemplar solved questions associated with that skill label. This improves accuracy on GSM8k and MATH for several strong LLMs, including code-assisted models. The methodology presented is domain-agnostic, even though this article applies it to math problems.
Abstract（参考訳）: メタ認知的知識(Metacognitive knowledge)とは、人間の思考と推論過程に関する直感的な知識のことである。今日の最高のLCMは明らかに推論プロセスを持っています。本論文は,メタ認知的知識をもち,課題を与えられた場合のスキルや手順を名付ける能力を含む証拠を提示する。そこで我々は,まずこれを数学推論の文脈で探求し,強力なLLMを用いて有能なスキルラベルを数学の質問に割り当て,続いてセマンティッククラスタリングを行い,スキルラベルの粗いファミリーを得られるようにする。これらの粗いスキルラベルは人間に解釈可能である。これらのスキルラベルがLCMの推論プロセスに意味があり、関連があることを検証するために、以下の実験を行う。 (a)GPT-4に、数学データセットGSM8KとMATHの学習課題にスキルラベルを割り当てるよう依頼する。 b) LLM を用いてテスト問題の解決を行う場合,スキルラベルの完全なリストを提示し,必要なスキルを特定する。そして、そのスキルラベルに関連するランダムに選択された模範的解答を提示する。これにより、コードアシストモデルを含むいくつかの強力なLCMのGSM8kとMATHの精度が向上する。この記事は数学の問題に当てはまるが、提案する方法論はドメインに依存しない。

関連論文リスト

Understanding LLMs' Fluid Intelligence Deficiency: An Analysis of the ARC Task [71.61879949813998]
認知研究において、後者の能力は流体インテリジェンスと呼ばれ、人間のインテリジェンスを評価するために重要であると考えられている。流体インテリジェンス評価に関する最近の研究は、LLMの能力に重大な欠陥を浮き彫りにした。本研究は,既存のLSMにおいて,スキル構成能力の制限,抽象的な入力形式に慣れていないこと,左から右への復号化の本質的欠如の3つの大きな限界を明らかにした。
論文参考訳（メタデータ） (2025-02-11T02:31:09Z)
LLM The Genius Paradox: A Linguistic and Math Expert's Struggle with Simple Word-based Counting Problems [28.72485319617863]
LLMは、人間が扱いやすいようないくつかの基本的なタスク、例えば単語トラウベリーの文字数rを数えるのに苦労する。我々は,高度な数学的およびコーディング推論能力の伝達可能性について,特殊なLCMから単純なカウントタスクまでの測定を行う。微調整や文脈内学習といった戦略と比較すると、係り受け推論はLLMのタスクをより知覚するのに役立つ最も堅牢で効率的な方法であることがわかる。
論文参考訳（メタデータ） (2024-10-18T04:17:16Z)
On Unsupervised Prompt Learning for Classification with Black-box Language Models [71.60563181678323]
大規模言語モデル(LLM)は、テキスト形式学習問題において顕著な成功を収めた。 LLMは、熟練した人間のアノテータよりも品質の高いデータセットをラベル付けすることができる。本稿では,ブラックボックス LLM を用いた分類のための教師なしのプロンプト学習を提案する。
論文参考訳（メタデータ） (2024-10-04T03:39:28Z)
AI-Assisted Generation of Difficult Math Questions [78.7547836422727]
現在の訓練は、数学的推論をコア能力として位置づけている。多様で挑戦的な数学の質問には、控えめな需要がある。本稿では,LLMの強みとHuman-in-the-loopアプローチを組み合わせた設計枠組みを提案する。
論文参考訳（メタデータ） (2024-07-30T17:55:36Z)
Knowledge Tagging System on Math Questions via LLMs with Flexible Demonstration Retriever [48.5585921817745]
大きな言語モデル(LLM)は知識タグ付けタスクを自動化するために使われる。算数問題における知識タグ付けタスクに対するゼロショットと少数ショットの結果の強い性能を示す。強化学習に基づくデモレトリバーの提案により,異なるサイズのLLMの潜在能力を活用できた。
論文参考訳（メタデータ） (2024-06-19T23:30:01Z)
Automate Knowledge Concept Tagging on Math Questions with LLMs [48.5585921817745]
知識概念のタグ付けは、現代の知的教育応用において重要な役割を担っている。伝統的に、これらの注釈は教育専門家の助けを借りて手作業で行われてきた。本稿では,Large Language Models (LLM) を用いたタグ付けタスクの自動化について検討する。
論文参考訳（メタデータ） (2024-03-26T00:09:38Z)
GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。 1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文参考訳（メタデータ） (2024-02-29T15:26:14Z)
Knowledge Solver: Teaching LLMs to Search for Domain Knowledge from Knowledge Graphs [19.0797968186656]
大規模言語モデル(LLM)は汎用的であり、その創発的能力と一般化性のために異なるタスクを解くことができる。以前の研究では、グラフニューラルネットワーク(GNN)のような追加モジュールは、外部の知識ベースから取得した知識に基づいて訓練されている。
論文参考訳（メタデータ） (2023-09-06T15:55:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。