論文の概要: Large Language Models Have Intrinsic Meta-Cognition, but Need a Good Lens
- arxiv url: http://arxiv.org/abs/2506.08410v1
- Date: Tue, 10 Jun 2025 03:30:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:41.360577
- Title: Large Language Models Have Intrinsic Meta-Cognition, but Need a Good Lens
- Title(参考訳): 大きな言語モデルには固有のメタ認知がありますが、良いレンズが必要です
- Authors: Ziyang Ma, Qingyue Yuan, Zhenglin Wang, Deyu Zhou,
- Abstract要約: 本稿では,現在のレンズを用いたLarge Language Models(LLM)メタ認知の評価と,その改善方法について検討する。
具体的には,既存のレンズをベンチマークするための自動メタ認知評価フレームワークであるAutoMecoを提案する。
さらに、現在のメタ認知レンズを強化するために、訓練不要なマルコフ固有逆補正戦略であるMIRAを提案する。
- 参考スコア(独自算出の注目度): 14.591602503602564
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Previous research has primarily focused on the cognitive error detection capabilities of Large Language Models (LLMs), often prompting them to analyze mistakes in reasoning chains. However, few studies have examined the meta-cognitive abilities of LLMs (e.g., their self-awareness of step errors), which are crucial for their reliability. While studies on LLM self-evaluation present some measures, such as perplexity, which can reflect the answer correctness and be viewed as the lens of meta-cognition, they lack step-level analysis and adaptation. This paper studies the evaluation of LLM meta-cognition using the current lenses and how to improve these lenses. Specifically, we propose AutoMeco, an Automated Meta-cognition Evaluation framework for benchmarking the existing lenses. Furthermore, a training-free Markovian Intrinsic Reward Adjustment strategy, MIRA, is proposed to boost current meta-cognition lenses. Experimental results on three mathematical reasoning datasets and three LLMs show the reasonableness of AutoMeco by comparing it with Best-of-N verification. Moreover, the meta-cognition ability of LLMs can be better evaluated using MIRA.
- Abstract(参考訳): これまでの研究は主に、Large Language Models (LLMs) の認知的エラー検出機能に重点を置いてきた。
しかし、LCMのメタ認知能力(例えば、ステップエラーの自己認識)について、信頼性に欠かせない研究は少ない。
LLM自己評価の研究は、解答の正しさを反映し、メタ認知のレンズと見なされるパープレキシティなどのいくつかの尺度を提示するが、ステップレベルの分析と適応は欠如している。
本稿では,現在のレンズを用いたLCMメタ認知の評価と,その改善方法について検討する。
具体的には,既存のレンズをベンチマークするための自動メタ認知評価フレームワークであるAutoMecoを提案する。
さらに、現在のメタ認知レンズを強化するために、訓練不要なマルコフ固有逆補正戦略であるMIRAを提案する。
3つの数学的推論データセットと3つのLCMによる実験結果から,AutoMecoの妥当性をBest-of-N検証と比較した。
さらに、LLMのメタ認知能力は、MIRAを用いてよりよく評価できる。
関連論文リスト
- An Empirical Study of the Anchoring Effect in LLMs: Existence, Mechanism, and Potential Mitigations [12.481311145515706]
本研究は、心が第一の情報に大きく依存する認知バイアスであるアンカー効果を考察し、影響のある判断を下す。
アンカー効果の大規模研究を容易にするため,新しいデータセットであるSynAnchorsを導入する。
以上の結果から, LLMのアンカリングバイアスは一般に浅層作用とともに存在し, 従来の手法では排除されないことが示唆された。
論文 参考訳(メタデータ) (2025-05-21T11:33:54Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - Investigating the Shortcomings of LLMs in Step-by-Step Legal Reasoning [34.427730009102966]
推論誤りを特定し,LLMの性能を評価するための自動評価フレームワークを開発した。
我々の研究は、論理集約的な複雑なタスクに対する推論チェーンの詳細なエラー解析に使用できる評価フレームワークとしても機能する。
論文 参考訳(メタデータ) (2025-02-08T19:49:32Z) - AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。
従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。
さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文 参考訳(メタデータ) (2024-06-24T15:16:45Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - CriticBench: Benchmarking LLMs for Critique-Correct Reasoning [26.45110574463893]
CriticBenchは、大規模言語モデルの推論を批判し修正する能力を評価するために設計されたベンチマークである。
生成, 批判, 修正推論における17個のLLMの性能を評価し, 評価した。
論文 参考訳(メタデータ) (2024-02-22T18:59:02Z) - Dynamic Evaluation of Large Language Models by Meta Probing Agents [44.20074234421295]
大規模言語モデル(LLM)を評価するためのメタ・プロブリング・エージェント(MPA)を提案する。
MPAはDyVal 2の重要なコンポーネントであり、DyValcitepzhu2023dyvalを自然に拡張している。
MPAは、探索および判定エージェントを設計し、元の評価問題を心理測定理論に従って新しいものに自動的に変換する。
論文 参考訳(メタデータ) (2024-02-21T06:46:34Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。