論文の概要: Large Language Models Have Intrinsic Meta-Cognition, but Need a Good Lens
- arxiv url: http://arxiv.org/abs/2506.08410v1
- Date: Tue, 10 Jun 2025 03:30:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:41.360577
- Title: Large Language Models Have Intrinsic Meta-Cognition, but Need a Good Lens
- Title(参考訳): 大きな言語モデルには固有のメタ認知がありますが、良いレンズが必要です
- Authors: Ziyang Ma, Qingyue Yuan, Zhenglin Wang, Deyu Zhou,
- Abstract要約: 本稿では,現在のレンズを用いたLarge Language Models(LLM)メタ認知の評価と,その改善方法について検討する。
具体的には,既存のレンズをベンチマークするための自動メタ認知評価フレームワークであるAutoMecoを提案する。
さらに、現在のメタ認知レンズを強化するために、訓練不要なマルコフ固有逆補正戦略であるMIRAを提案する。
- 参考スコア(独自算出の注目度): 14.591602503602564
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Previous research has primarily focused on the cognitive error detection capabilities of Large Language Models (LLMs), often prompting them to analyze mistakes in reasoning chains. However, few studies have examined the meta-cognitive abilities of LLMs (e.g., their self-awareness of step errors), which are crucial for their reliability. While studies on LLM self-evaluation present some measures, such as perplexity, which can reflect the answer correctness and be viewed as the lens of meta-cognition, they lack step-level analysis and adaptation. This paper studies the evaluation of LLM meta-cognition using the current lenses and how to improve these lenses. Specifically, we propose AutoMeco, an Automated Meta-cognition Evaluation framework for benchmarking the existing lenses. Furthermore, a training-free Markovian Intrinsic Reward Adjustment strategy, MIRA, is proposed to boost current meta-cognition lenses. Experimental results on three mathematical reasoning datasets and three LLMs show the reasonableness of AutoMeco by comparing it with Best-of-N verification. Moreover, the meta-cognition ability of LLMs can be better evaluated using MIRA.
- Abstract(参考訳): これまでの研究は主に、Large Language Models (LLMs) の認知的エラー検出機能に重点を置いてきた。
しかし、LCMのメタ認知能力(例えば、ステップエラーの自己認識)について、信頼性に欠かせない研究は少ない。
LLM自己評価の研究は、解答の正しさを反映し、メタ認知のレンズと見なされるパープレキシティなどのいくつかの尺度を提示するが、ステップレベルの分析と適応は欠如している。
本稿では,現在のレンズを用いたLCMメタ認知の評価と,その改善方法について検討する。
具体的には,既存のレンズをベンチマークするための自動メタ認知評価フレームワークであるAutoMecoを提案する。
さらに、現在のメタ認知レンズを強化するために、訓練不要なマルコフ固有逆補正戦略であるMIRAを提案する。
3つの数学的推論データセットと3つのLCMによる実験結果から,AutoMecoの妥当性をBest-of-N検証と比較した。
さらに、LLMのメタ認知能力は、MIRAを用いてよりよく評価できる。
関連論文リスト
- AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。
従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。
さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文 参考訳(メタデータ) (2024-06-24T15:16:45Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - Dynamic Evaluation of Large Language Models by Meta Probing Agents [44.20074234421295]
大規模言語モデル(LLM)を評価するためのメタ・プロブリング・エージェント(MPA)を提案する。
MPAはDyVal 2の重要なコンポーネントであり、DyValcitepzhu2023dyvalを自然に拡張している。
MPAは、探索および判定エージェントを設計し、元の評価問題を心理測定理論に従って新しいものに自動的に変換する。
論文 参考訳(メタデータ) (2024-02-21T06:46:34Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。