論文の概要: Language Models Coupled with Metacognition Can Outperform Reasoning Models
- arxiv url: http://arxiv.org/abs/2508.17959v1
- Date: Mon, 25 Aug 2025 12:19:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.769499
- Title: Language Models Coupled with Metacognition Can Outperform Reasoning Models
- Title(参考訳): メタ認知と結合した言語モデルは推論モデルより優れている
- Authors: Vedant Khandelwal, Francesca Rossi, Keerthiram Murugesan, Erik Miehling, Murray Campbell, Karthikeyan Natesan Ramamurthy, Lior Horesh,
- Abstract要約: 大規模言語モデル(LLM)は、様々な推論タスクの速度と適応性に優れる。
LRMは複雑なステップバイステップ推論のために特別に設計されている。
SOFAI-LM はメタ認知により遅いがより強力な LRM と高速な LLM を協調する。
- 参考スコア(独自算出の注目度): 32.32646975975768
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) excel in speed and adaptability across various reasoning tasks, but they often struggle when strict logic or constraint enforcement is required. In contrast, Large Reasoning Models (LRMs) are specifically designed for complex, step-by-step reasoning, although they come with significant computational costs and slower inference times. To address these trade-offs, we employ and generalize the SOFAI (Slow and Fast AI) cognitive architecture into SOFAI-LM, which coordinates a fast LLM with a slower but more powerful LRM through metacognition. The metacognitive module actively monitors the LLM's performance and provides targeted, iterative feedback with relevant examples. This enables the LLM to progressively refine its solutions without requiring the need for additional model fine-tuning. Extensive experiments on graph coloring and code debugging problems demonstrate that our feedback-driven approach significantly enhances the problem-solving capabilities of the LLM. In many instances, it achieves performance levels that match or even exceed those of standalone LRMs while requiring considerably less time. Additionally, when the LLM and feedback mechanism alone are insufficient, we engage the LRM by providing appropriate information collected during the LLM's feedback loop, tailored to the specific characteristics of the problem domain and leads to improved overall performance. Evaluations on two contrasting domains: graph coloring, requiring globally consistent solutions, and code debugging, demanding localized fixes, demonstrate that SOFAI-LM enables LLMs to match or outperform standalone LRMs in accuracy while maintaining significantly lower inference time.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な推論タスクにまたがる速度と適応性に優れるが、厳格な論理や制約の強制を必要とする場合、しばしば苦労する。
対照的に、Large Reasoning Models (LRM) は複雑なステップバイステップの推論のために特別に設計されている。
これらのトレードオフに対処するため、メタ認知を通して高速LLMと遅いがより強力なLRMを協調するSOFAI-LMにSOFAI(Slow and Fast AI)認知アーキテクチャを採用、一般化する。
メタ認知モジュールはLLMのパフォーマンスを積極的に監視し、関連する例で目標とする反復的なフィードバックを提供する。
これにより、LLMは、追加のモデル微調整を必要とせずに、ソリューションを段階的に洗練することができる。
グラフカラー化とコードのデバッグに関する大規模な実験は、我々のフィードバック駆動アプローチがLLMの問題解決能力を著しく向上させることを示している。
多くの場合、スタンドアローンのLEMとマッチしたり、超えたりするパフォーマンスのレベルを達成しますが、時間もかなり少なくなります。
さらに, LLMとフィードバック機構が不十分な場合, LLMのフィードバックループ中に収集した適切な情報を提供することで, 問題領域の特定の特性に合わせて, LRMを関与させ, 全体的な性能を向上させる。
グラフカラー化、グローバルな一貫したソリューションの要求、コードのデバッグ、局所的な修正の要求という2つの対照的な領域における評価は、SOFAI-LMが予測時間を大幅に低く保ちながら、スタンドアロンのLEMを精度良くマッチングまたは上回ることを実証している。
関連論文リスト
- EIFBENCH: Extremely Complex Instruction Following Benchmark for Large Language Models [65.48902212293903]
大規模言語モデル(LLM)を評価するためのEIFBENCH(Extremely Complex Instruction following Benchmark)を提案する。
EIFBENCHにはマルチタスクシナリオが含まれており、多様なタスクタイプを同時に総合的に評価することができる。
また,LLMのマルチタスクワークフローを正確に満たす能力を高めるために,セグメントポリシー最適化(SegPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-10T02:39:55Z) - Benchmarking Spatiotemporal Reasoning in LLMs and Reasoning Models: Capabilities and Challenges [4.668749313973097]
本稿では,Large Language Models (LLMs) とLarge Reasoning Models (LRMs) を3段階の推論複雑性で体系的に評価する。
モデルが直接、あるいはPython Code Interpreterによって応答する26の課題をキュレートします。
LRMは、様々な難易度を持つタスク間で堅牢なパフォーマンスを示し、しばしば従来の第一原理に基づく手法と競合する。
論文 参考訳(メタデータ) (2025-05-16T18:32:35Z) - Lightweight Latent Verifiers for Efficient Meta-Generation Strategies [0.5892638927736115]
検証は、ベース大言語モデル(LLM)によって生成された出力の正しさを評価する補助モデルである。
本研究では,LLMの隠れ状態から精度の高い正当性信号を確実に抽出する,新しい軽量検証手法LiLaVeを提案する。
LiLaVeの重要な利点は、従来のLCMベースの検証器が必要とする計算予算のごく一部でしか動作できないことである。
論文 参考訳(メタデータ) (2025-04-23T14:33:20Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - AdaptiveLog: An Adaptive Log Analysis Framework with the Collaboration of Large and Small Language Model [42.72663245137984]
本稿では、AdaptiveLogとして知られる適応ログ分析フレームワークを紹介する。
優れた結果を確保しつつ、LLMに関連するコストを効果的に削減する。
実験では、AdaptiveLogがさまざまなタスクにまたがって最先端の結果を達成することを示した。
論文 参考訳(メタデータ) (2025-01-19T12:46:01Z) - Watson: A Cognitive Observability Framework for the Reasoning of LLM-Powered Agents [7.392058124132526]
ファウンデーションモデル(FM)はエージェントソフトウェアのような複雑なソフトウェアシステムにおいて、ますます顕著な役割を担っている。
高速思考の大規模言語モデル(LLM)は、レイテンシの制約のため、依然として好まれている。
暗黙の推論プロセスに推論可能性を提供するフレームワークであるWatsonを紹介します。
論文 参考訳(メタデータ) (2024-11-05T19:13:22Z) - Control Large Language Models via Divide and Conquer [94.48784966256463]
本稿では,Lexically Constrained Generation(LCG)に着目し,大規模言語モデル(LLM)のプロンプトベース制御による制御可能生成について検討する。
我々は,レキシカル制約を満たすためのLLMの性能を,プロンプトベース制御により評価し,下流アプリケーションでの有効性を検証した。
論文 参考訳(メタデータ) (2024-10-06T21:20:06Z) - CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。
そこで本研究では,学習バランスを定量的に評価する尺度を提案する。
さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T23:18:55Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。