論文の概要: Before you , monitor: Implementing Flavell's metacognitive framework in LLMs
- arxiv url: http://arxiv.org/abs/2510.16374v1
- Date: Sat, 18 Oct 2025 06:52:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.970199
- Title: Before you <think>, monitor: Implementing Flavell's metacognitive framework in LLMs
- Title(参考訳): あなたが考える前に、モニター: LLMでFlavellのメタ認知フレームワークを実装する
- Authors: Nick Oh,
- Abstract要約: より広範なモニタ・ジェネレート・検証フレームワークを用いてFlavellの認知モニタリングモデル(1979年)を実装した。
GSM8Kでは、SELF-REFINEが75.42%、SeLF-REFINEが68.44%、自己検証が67.07%であった。
これらの初期の発見は、事前監視が高品質な初期ソリューションを生み出すことを示唆している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current approaches to enhancing LLM reasoning follows two isolated paradigms: Monitor-Generate methods like Plan-and-Solve (Wang et al., 2023) and SELF-DISCOVER (Zhou et al., 2024) excel at strategic planning but lack mechanisms to verify whether selected strategies succeed; while Generate-Verify approaches like Self-Verification (Weng et al., 2022) and SELF-REFINE (Madaan et al., 2023) iteratively refine outputs but commence generation blindly without task assessment. This separation creates inefficiencies -- strategies fail without feedback, and refinement occurs without strategic grounding. We address this gap by implementing Flavell's cognitive monitoring model (1979) from the broader Monitor-Generate-Verify framework (Oh and Gobet, 2025), operationalising it as a three-phase iterative system. On GSM8K, preliminary results show 75.42% accuracy versus 68.44% for SELF-REFINE and 67.07% for Self-Verification, while requiring fewer attempts (1.3 vs 2.0) at 27-37% increased inference cost. These initial findings suggest upfront monitoring produces higher-quality initial solutions that reduce refinement needs, though evaluation beyond arithmetic reasoning is needed to establish generalisability.
- Abstract(参考訳): プラン・アンド・ソルヴ (Wang et al , 2023) や SELF-DISCOVER (Zhou et al , 2024) のようなモニタ・ジェネレーション手法は戦略計画において優れているが、選択した戦略が成功するかどうかを検証するためのメカニズムが欠如している。
この分離は非効率を生み出します -- 戦略はフィードバックなしで失敗し、改善は戦略的根拠なしに行われます。
我々は,Flavellの認知モニタリングモデル(1979年)をモニタ・ジェネレート・検証フレームワーク(Oh and Gobet, 2025年)から実装し,これを3段階反復システムとして運用することで,このギャップに対処する。
GSM8Kでは、SELF-REFINEが75.42%、SeLF-REFINEが68.44%、自己検証が67.07%、推論コストが27-37%上昇した。
これらの初期の知見は、事前監視は改善ニーズを減らすための高品質な初期解を生成することを示唆しているが、一般性を確立するには算術的推論以上の評価が必要であることを示唆している。
関連論文リスト
- Boosting LLM Reasoning via Spontaneous Self-Correction [43.4980625253775]
数学推論を改善するためのアプローチの1つは自己補正である。
既存の自己補正アプローチは、修正を独立したポストジェネレーションとして扱う。
本研究では,LLMが単一推論パスでインターリーブされた解と検証を生成できる自己補正手法であるSPOCを提案する。
論文 参考訳(メタデータ) (2025-06-07T21:23:00Z) - SPC: Evolving Self-Play Critic via Adversarial Games for LLM Reasoning [99.645427839457]
セルフプレイ批判(Self-Play Critic、SPC)は、対戦型セルフプレイゲームを通じて推論ステップを評価する能力を進化させる新しいアプローチである。
SPCは、ベースモデルの2つのコピーを微調整して、2つの役割、すなわち「スニーキージェネレータ」と「批判的」を演じる。
論文 参考訳(メタデータ) (2025-04-27T08:45:06Z) - Resilience of Vision Transformers for Domain Generalisation in the Presence of Out-of-Distribution Noisy Images [2.2124795371148616]
マスク付き画像モデリング(MIM)で事前訓練した視覚トラスフォーマーを,OODベンチマークと比較した。
実験では、BEITの既知の堅牢性を実証し、PACSでは94%、Office-Homeでは87%の精度を維持した。
これらの洞察は、実験室で訓練されたモデルと、不確実性の下で確実に一般化するAIシステムを構築するための青写真を提供する現実世界のデプロイメントのギャップを埋めるものだ。
論文 参考訳(メタデータ) (2025-04-05T16:25:34Z) - Making Every Step Effective: Jailbreaking Large Vision-Language Models Through Hierarchical KV Equalization [74.78433600288776]
HKVE (Hierarchical Key-Value Equalization) は、勾配最適化結果を選択的に受け入れる革新的なジェイルブレイクフレームワークである。
HKVEは既存の手法を20.43%,21.01%,26.43%のマージンで大幅に上回った。
論文 参考訳(メタデータ) (2025-03-14T17:57:42Z) - Generative AI for Requirements Engineering: A Systematic Literature Review [1.6986294649170766]
生成事前学習型トランスモデルが現在の応用を支配している。
産業採用は未熟であり、90%以上の研究が初期開発に対応している。
GenAIベースのREの変革的な可能性にもかかわらず、いくつかの障壁は実践的な採用を妨げる。
論文 参考訳(メタデータ) (2024-09-10T02:44:39Z) - Unconditional Truthfulness: Learning Unconditional Uncertainty of Large Language Models [104.55763564037831]
我々は、注意マップ、現在の生成ステップにおける確率、および以前に生成されたトークンから繰り返し計算された不確実性スコアを利用する回帰モデルを訓練する。
評価の結果,提案手法は選択的生成に極めて有効であり,教師なしアプローチと教師なしアプローチに比較して大幅な改善が得られた。
論文 参考訳(メタデータ) (2024-08-20T09:42:26Z) - Iterative Reasoning Preference Optimization [84.15992372132507]
生成したChain-of-Thought(CoT)候補間の嗜好を最適化するための反復的アプローチを開発する。
このスキームの繰り返し繰り返しにおける推論の改善を示す。
例えば、GSM8Kは55.6%から81.6%に大きく改善され、精度は88.7%となり、32のサンプルのうち多数が投票した。
論文 参考訳(メタデータ) (2024-04-30T17:28:05Z) - Chain of Evidences and Evidence to Generate: Prompting for Context Grounded and Retrieval Augmented Reasoning [3.117335706912261]
チェイン・オブ・エビデンス(CoE)とエビデンス・トゥ・ジェネレーション(E2G)は2つのユニークな戦略に基づいて構築されている。
根拠のない推論の主張の代わりに、我々の革新的なアプローチは「意思決定の証拠」の力を利用する。
我々のフレームワークは、様々な知識集約的推論および生成タスクにおいて、常に顕著な結果を達成する。
論文 参考訳(メタデータ) (2024-01-11T09:49:15Z) - Asking for Help: Failure Prediction in Behavioral Cloning through Value
Approximation [8.993237527071756]
本稿では,行動クローン化政策と協調して,状態値関数を学習する手法である行動クローン値近似(BCVA)を導入する。
我々は,ラッチドア開口の移動操作課題にBCVAを適用し,BCVAの有効性を実証した。
論文 参考訳(メタデータ) (2023-02-08T20:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。