論文の概要: TRIAGE: Evaluating Prospective Metacognitive Control in LLMs under Resource Constraints
- arxiv url: http://arxiv.org/abs/2605.13414v1
- Date: Wed, 13 May 2026 12:10:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:28.032727
- Title: TRIAGE: Evaluating Prospective Metacognitive Control in LLMs under Resource Constraints
- Title(参考訳): TRIAGE:資源制約下におけるLCMの先進的メタ認知制御の評価
- Authors: Zabir Al Nazi, Shubhashis Roy Dipta,
- Abstract要約: メタ認知制御のための言語モデルをテストするためのフレームワークであるTRIAGEを紹介する。
現状の言語モデルでは, メタ認知制御にかなりのギャップがあることが判明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying language models as autonomous agents requires more than per-task accuracy: when an agent faces a queue of problems under a finite token budget, it must decide which to attempt, in what order, and how much compute to commit to each, all before any execution feedback is available. This is the prospective form of metacognitive control studied for decades in human cognition, yet whether language models possess it remains untested. We introduce TRIAGE, an evaluation framework in which a model receives a task pool and a token budget calibrated to its own baseline cost, and commits to a single ordered plan that jointly encodes selection, sequencing, and per-problem allocation. Plans are scored against an oracle with full knowledge of the model's solvability and cost on each problem, yielding a triage efficiency ratio on a common scale. We evaluate frontier and open-source models, with and without reasoning enabled, across competition mathematics, graduate-level science, code generation, and expert multidisciplinary knowledge, and find that current language models exhibit substantial gaps in prospective metacognitive control, revealing a previously unmeasured capability dimension with direct implications for resource-efficient agent deployment.
- Abstract(参考訳): エージェントが有限のトークン予算の下で問題のキューに直面した場合には、実行フィードバックが利用可能になる前に、どの処理を試すか、どの順序で、どの処理をコミットするかを判断する必要があります。
これは、人間の認知において何十年にもわたって研究されてきたメタ認知制御の予測形式である。
本稿では,モデルがタスクプールとトークン予算を独自の基準コストに調整した評価フレームワークTRIAGEを紹介し,選択,シーケンシング,プロブレム単位の割り当てを共同で符号化する単一順序計画にコミットする。
プランは、モデルの可解性と各問題に対するコストについて十分な知識を持つオラクルに対して行われ、共通のスケールでのトリアージ効率比が得られる。
我々は、競合数学、大学院レベルの科学、コード生成、専門家による多分野の知識を通じて、フロンティアモデルとオープンソースモデルを評価し、現在の言語モデルが将来的なメタ認知制御において大きなギャップを生じていることを発見し、リソース効率のエージェント展開に直接的な意味を持つ未測定能力の次元を明らかにした。
関連論文リスト
- Adaptive Multi-Round Allocation with Stochastic Arrivals [26.102812388131813]
本稿では,適応型ネットワークの採用を動機とした逐次的資源配分問題について検討する。
まず, 単一ラウンド割当問題において, 生存確率の限界に基づく厳密な解が認められていることを示す。
多重ラウンド設定では、結果として生じるベルマン再帰はフロンティアの高次元進化のために引き起こされる。
論文 参考訳(メタデータ) (2026-05-12T13:29:06Z) - Reasoning Is All You Need for Urban Planning AI [3.3943213418026126]
本稿では,推論可能な計画エージェントのためのエージェント都市計画AIフレームワークを提案する。
パーセプション(Perception)、ファンデーション(Foundation)、推論(Reasoning)という3つの認知レイヤを、マルチエージェントコラボレーションフレームワークを通じて6つのロジックコンポーネント(分析、生成、検証、評価、コラボレーション、決定)と統合する。
我々は、AIエージェントが、ソリューション空間を体系的に探索し、規制コンプライアンスを検証し、トレードオフを透過的に検討することで、ヒューマンプランナーを強化する方法を示す。
論文 参考訳(メタデータ) (2025-11-07T15:59:06Z) - Enhancing Credit Risk Prediction: A Meta-Learning Framework Integrating Baseline Models, LASSO, and ECOC for Superior Accuracy [7.254744067646655]
本研究では,複数の相補的モデルを合成する包括的メタラーニングフレームワークを提案する。
我々は,全ての構成モデルにまたがる予測クラスに対して,置換特徴重要度分析を実装した。
その結果,我々の枠組みは,財務組織分類の精度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-09-26T14:09:04Z) - Hell or High Water: Evaluating Agentic Recovery from External Failures [19.402114652658206]
我々は,言語エージェントが目的を達成するための代替手段をいかに探すかを研究するために,特殊エージェント計画ベンチマークを開発する。
私たちのベンチマークでは、突然利用不能になった関数など、ワークフロー内の外部障害にエージェントが直面しています。
全体として,言語エージェントは環境フィードバックに応じて,バックアップ計画の定式化と実行に苦慮している。
論文 参考訳(メタデータ) (2025-08-14T19:21:09Z) - Cascaded Language Models for Cost-effective Human-AI Decision-Making [52.81324217423194]
複数の専門分野にまたがってタスクを適応的に委譲するLLM決定フレームワークを提案する。
まず、deferral Policyは、ベースモデルの回答を受け入れるか、あるいは大きなモデルでそれを再生するかを決定する。
第2に、禁忌ポリシーは、カスケードモデル応答が十分に確実であるか、または人間の介入を必要とするかを判定する。
論文 参考訳(メタデータ) (2025-06-13T15:36:22Z) - Agentic Knowledgeable Self-awareness [79.25908923383776]
KnowSelfはデータ中心のアプローチで、人間のような知識のある自己認識を持つエージェントを応用する。
我々の実験により、KnowSelfは、外部知識を最小限に使用して、様々なタスクやモデルにおいて、様々な強力なベースラインを達成できることが実証された。
論文 参考訳(メタデータ) (2025-04-04T16:03:38Z) - Efficient Non-Parametric Uncertainty Quantification for Black-Box Large
Language Models and Decision Planning [17.752461521448236]
本稿では,不確実性を考慮した意思決定計画に焦点をあて,言語モデルにおける問題に対処する。
我々の不確実性評価と意思決定エージェント設計は、AIエージェント開発にコスト効率のよいアプローチを提供する。
論文 参考訳(メタデータ) (2024-02-01T00:23:31Z) - Modeling Boundedly Rational Agents with Latent Inference Budgets [56.24971011281947]
エージェントの計算制約を明示的にモデル化する潜在推論予算モデル(L-IBM)を導入する。
L-IBMは、最適なアクターの多様な集団のデータを使ってエージェントモデルを学ぶことができる。
我々は,L-IBMが不確実性の下での意思決定のボルツマンモデルに適合しているか,あるいは上回っていることを示す。
論文 参考訳(メタデータ) (2023-12-07T03:55:51Z) - On Exploiting Hitting Sets for Model Reconciliation [53.81101846598925]
ヒューマン・アウェア・プランニングにおいて、プランニング・エージェントは、その計画がなぜ最適なのかを人間に説明する必要があるかもしれない。
この手法はモデル和解と呼ばれ、エージェントはモデルと人間のモデルの違いを調和させようとする。
我々は,計画の領域を超えて拡張されたモデル和解のための論理ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-12-16T21:25:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。