論文の概要: STAR : Bridging Statistical and Agentic Reasoning for Large Model Performance Prediction
- arxiv url: http://arxiv.org/abs/2602.12143v1
- Date: Thu, 12 Feb 2026 16:30:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.931892
- Title: STAR : Bridging Statistical and Agentic Reasoning for Large Model Performance Prediction
- Title(参考訳): STAR : 大規模モデル性能予測のためのブリッジング統計とエージェント推論
- Authors: Xiaoxiao Wang, Chunxiao Li, Junying Wang, Yijin Guo, Zijian Chen, Chunyi Li, Xiaohong Liu, Zicheng Zhang, Guangtao Zhai,
- Abstract要約: 本稿では,知識駆動型エージェント推論を用いて,データ駆動型静的予測を橋渡しするフレームワークSTARを提案する。
STARはスコアベースとランクベースの両方の基準線を一貫して上回ることを示す。
- 参考スコア(独自算出の注目度): 78.0692157478247
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As comprehensive large model evaluation becomes prohibitively expensive, predicting model performance from limited observations has become essential. However, existing statistical methods struggle with pattern shifts, data sparsity, and lack of explanation, while pure LLM methods remain unreliable. We propose STAR, a framework that bridges data-driven STatistical expectations with knowledge-driven Agentic Reasoning. STAR leverages specialized retrievers to gather external knowledge and embeds semantic features into Constrained Probabilistic Matrix Factorization (CPMF) to generate statistical expectations with uncertainty. A reasoning module guided by Expectation Violation Theory (EVT) then refines predictions through intra-family analysis, cross-model comparison, and credibility-aware aggregation, producing adjustments with traceable explanations. Extensive experiments show that STAR consistently outperforms all baselines on both score-based and rank-based metrics, delivering a 14.46% gain in total score over the strongest statistical method under extreme sparsity, with only 1--2 observed scores per test model.
- Abstract(参考訳): 包括的大モデル評価が不当に高価になるにつれて、限られた観測結果からモデル性能を予測することが不可欠になっている。
しかし、既存の統計手法はパターンシフト、データ空間、説明の欠如に苦慮し、純粋なLLM法は信頼性が低いままである。
本稿では,知識駆動型エージェント推論を用いて,データ駆動型静的予測を橋渡しするフレームワークSTARを提案する。
STARは、特別なレトリバーを利用して外部知識を収集し、セマンティックな特徴を制約付き確率行列因子化(CPMF)に組み込んで、不確実性を伴う統計的予測を生成する。
expectation Violation Theory (EVT) によって導かれる推論モジュールは、家族内分析、モデル間比較、信頼性を考慮した集約を通じて予測を洗練し、トレース可能な説明を伴う調整を生成する。
広範囲な実験により、STARはスコアベースとランクベースの両方の指標で一貫してベースラインを上回り、極端に疎らみの強い統計手法よりも14.46%のスコアを獲得し、テストモデル当たりのスコアは1~2点に過ぎなかった。
関連論文リスト
- How and Why LLMs Generalize: A Fine-Grained Analysis of LLM Reasoning from Cognitive Behaviors to Low-Level Patterns [51.02752099869218]
大きな言語モデル(LLM)は、非常に異なる一般化の振る舞いを示す。
推論を原子核スキルに分解する新しいベンチマークを導入する。
SFTモデルはよりシャープなドリフトと表面パターンへの過度な適合を示すのに対し、RL型モデルはより安定した行動プロファイルを維持し、推論スキルの崩壊に抵抗することを示す。
論文 参考訳(メタデータ) (2025-12-30T08:16:20Z) - MaP: A Unified Framework for Reliable Evaluation of Pre-training Dynamics [72.00014675808228]
大規模言語モデルの不安定性評価プロセスは、真の学習力学を曖昧にする。
textbfMaPは、アンダーラインMergingアンダーラインとアンダーラインPass@kメトリックを統合するフレームワークです。
実験により、MaPはよりスムーズな性能曲線を示し、ラン間分散を低減し、より一貫性のあるランキングを保証する。
論文 参考訳(メタデータ) (2025-10-10T11:40:27Z) - Model Correlation Detection via Random Selection Probing [62.093777777813756]
既存の類似性に基づく手法では、モデルパラメータにアクセスしたり、しきい値なしでスコアを生成する必要がある。
本稿では,モデル相関検出を統計的テストとして定式化する仮説テストフレームワークであるランダム選択探索(RSP)を紹介する。
RSPは相関の証拠を定量化する厳密なp-値を生成する。
論文 参考訳(メタデータ) (2025-09-29T01:40:26Z) - Beyond Model Ranking: Predictability-Aligned Evaluation for Time Series Forecasting [18.018179328110048]
スペクトルコヒーレンスに基づく予測可能性整合診断フレームワークを提案する。
予測可能性ドリフト(predictability drift, 予測可能性ドリフト)の最初の体系的な証拠として, タスクの予測困難度が時間とともに急激に変化することを示す。
複雑なモデルは予測可能性の低いデータより優れているのに対し、線形モデルは予測可能なタスクに非常に効果的である。
論文 参考訳(メタデータ) (2025-09-27T02:56:06Z) - Conformalized Exceptional Model Mining: Telling Where Your Model Performs (Not) Well [31.013018198280506]
本稿では,新しいフレームワークであるConformalized Exceptional Model Miningを紹介する。
コンフォーマル予測の厳密さと例外モデルマイニングの説明力を組み合わせる。
我々は、共形予測の厳密なカバレッジ保証を通じて不確実性を定量化する新しいモデルクラスmSMoPEを開発する。
論文 参考訳(メタデータ) (2025-08-21T13:43:14Z) - Out-of-Sample Hydrocarbon Production Forecasting: Time Series Machine Learning using Productivity Index-Driven Features and Inductive Conformal Prediction [1.1534313664323632]
本研究は, アウトオブサンプル炭化水素生産予測の堅牢性を高めるために設計された新しいMLフレームワークを紹介する。
The Volve (wells PF14, PF12) and Norne (well E1H) oil field, this study is using the historical data from the Volve (wells PF14, PF12) and Norne (well E1H) oil field, we investigated the effective of various predictive algorithm。
論文 参考訳(メタデータ) (2025-08-12T19:14:46Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - Ensemble Prediction via Covariate-dependent Stacking [0.0]
本研究では,CDST (covariate-dependent stacking) という,アンサンブル予測の新しい手法を提案する。
従来の積み重ね法やモデル平均化法とは異なり、CDSTはモデルの重みを共変量の関数として柔軟に変化させることができる。
以上の結果から,CDSTは複雑性・時間的予測問題に特に有用であるが有用ではないことが示唆された。
論文 参考訳(メタデータ) (2024-08-19T07:31:31Z) - Weak Supervision Performance Evaluation via Partial Identification [46.73061437177238]
Programmatic Weak Supervision (PWS) は、地上の真理ラベルに直接アクセスすることなく、教師付きモデルトレーニングを可能にする。
本稿では,モデル評価を部分的同定問題としてフレーミングすることで,この問題に対処する新しい手法を提案する。
提案手法は,従来の弱監督評価手法において,ラベル付きデータを必要とせず,重要な指標に信頼性のあるバウンダリを導出する。
論文 参考訳(メタデータ) (2023-12-07T07:15:11Z) - UQ-ARMED: Uncertainty quantification of adversarially-regularized mixed
effects deep learning for clustered non-iid data [0.6719751155411076]
この研究は、モデル適合性、固定効果共分散係数、予測信頼度について、容易に解釈可能な統計メトリクスを作成する能力を示す。
本実験では,UQ法が有益であるだけでなく,いくつかのUQ法が元のARMED法の性能を維持している。
論文 参考訳(メタデータ) (2022-11-29T02:50:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。