論文の概要: Beyond Static Snapshots: A Grounded Evaluation Framework for Language Models at the Agentic Frontier
- arxiv url: http://arxiv.org/abs/2604.17573v1
- Date: Sun, 19 Apr 2026 18:28:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.589931
- Title: Beyond Static Snapshots: A Grounded Evaluation Framework for Language Models at the Agentic Frontier
- Title(参考訳): 静的スナップショットを超えて - エージェントフロンティアにおける言語モデルのための基礎的評価フレームワーク
- Authors: Jazmia Henry,
- Abstract要約: シミュレーションに基づく微調整・評価システムであるISOProについて述べる。
学習した報奨モデルを決定論的基底真実検証器に置き換える。
LoRAアダプタ上で動作することでCPU上での重み付けが可能となり、ハードウェアバリアを桁違いに小さくする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We argue that current evaluation frameworks for large language models (LLMs) suffer from four systematic failures that make them structurally inadequate for assessing deployed, agentic systems: distributional invalidity (evaluation inputs do not reflect real interaction distributions), temporal invalidity (evaluations are post-hoc rather than training-integrated), scope invalidity (evaluations measure single-turn outputs rather than long-horizon trajectories), and process invalidity (evaluations assess outputs rather than reasoning). These failures compound critically in RLHF, where reward models are evaluated under conditions that do not hold during RL training, making reward hacking a predictable consequence of evaluation design rather than a training pathology. We propose the Grounded Continuous Evaluation (GCE) framework and present ISOPro, a simulation-based fine-tuning and evaluation system. ISOPro replaces the learned reward model with a deterministic ground-truth verifier, eliminating reward hacking by construction in verifiable-reward domains, and operates on LoRA adapter weights updatable on CPU, reducing the hardware barrier by an order of magnitude. We validate ISOPro on a resource-constrained scheduling domain with six difficulty tiers, demonstrating capability emergence visible only through continuous evaluation, an implicit curriculum that forms without researcher curation, and a 3x accuracy improvement over zero-shot baselines, all on consumer hardware with 0.216% trainable parameters.
- Abstract(参考訳): 大規模言語モデル (LLMs) の現在の評価フレームワークは, エージェントシステム, 分散無効性 (評価入力は実際の相互作用分布を反映しない) , 時間的無効性 (評価はトレーニング統合ではなくポストホック) , スコープ無効性 (評価はロングホライゾントラジェクトリではなくシングルターンアウトプットを測定する) , プロセス無効性 (評価は推論よりもアウトプットを評価する) の4つの体系的障害に悩まされている。
RLHFでは、報酬モデルがRLトレーニング中に保持されない条件下で評価されるため、報酬ハックはトレーニングパスではなく、評価設計の予測可能な結果となる。
シミュレーションに基づく微調整・評価システムであるGCEフレームワークとISOProを提案する。
ISOProは、学習した報酬モデルを決定論的基盤トラス検証器に置き換え、検証可能な再帰領域における構築による報酬ハッキングを排除し、LoRAアダプタの重み付けをCPU上で行うことにより、ハードウェア障壁を桁違いに削減する。
6つの難易度を持つリソース制約付きスケジューリングドメイン上でISOProを検証し、連続的な評価によってのみ見える能力を示すとともに、研究者のキュレーションを伴わない暗黙のカリキュラム、ゼロショットベースラインよりも3倍の精度向上を実現し、いずれも0.216%のトレーニング可能なパラメータを持つコンシューマハードウェア上で検証する。
関連論文リスト
- The Illusion of Certainty: Decoupling Capability and Calibration in On-Policy Distillation [67.26315138466312]
モデルロールアウトから経験的信頼性を推定するキャリブレーション対応のOPDフレームワークであるCaOPDを提案する。
本研究は, 能力蒸留が信頼性を示唆するものではないこと, 信頼性をポストトレーニングの本質的な目的として扱うべきであることを明らかにする。
論文 参考訳(メタデータ) (2026-04-18T04:43:40Z) - Can Vision Language Models Judge Action Quality? An Empirical Evaluation [5.688409551177917]
アクション・クオリティ・アセスメント(AQA)は、理学療法、スポーツコーチング、競争力判定に広く応用されている。
Vision Language Models (VLM) は AQA に対してかなりの保証を持っているが、この領域における実際のパフォーマンスは、ほとんど役に立たないままである。
本稿では,活動領域(例えば,フィットネス,フィギュアスケート,ダイビング,タスク,表現,促進戦略)における最先端VLMの総合評価について述べる。
論文 参考訳(メタデータ) (2026-04-09T14:29:19Z) - Evaluating Uplift Modeling under Structural Biases: Insights into Metric Stability and Model Robustness [8.135022024189306]
パーソナライズされたマーケティングにおいて、アップリフトモデルは、代替的な治療の下で顧客行動がどのように変化するかをモデル化することによって、漸進的な効果を推定する。
実世界のデータは、選択バイアス、こぼれ効果、未観測の混ざりなど、しばしばバイアスを示す。
論文 参考訳(メタデータ) (2026-03-21T11:54:25Z) - Evaluation-Aware Reinforcement Learning [10.594563233900004]
政策評価は、安全および性能クリティカルなシステムをデプロイするための前提条件であることが多い。
本稿では,評価対応強化学習(EvA-RL)を提案する。
EvA-RLは競合リターンを維持しつつ評価誤差を大幅に低減できることを示す。
論文 参考訳(メタデータ) (2025-09-23T18:17:21Z) - Weak Supervision Performance Evaluation via Partial Identification [46.73061437177238]
Programmatic Weak Supervision (PWS) は、地上の真理ラベルに直接アクセスすることなく、教師付きモデルトレーニングを可能にする。
本稿では,モデル評価を部分的同定問題としてフレーミングすることで,この問題に対処する新しい手法を提案する。
提案手法は,従来の弱監督評価手法において,ラベル付きデータを必要とせず,重要な指標に信頼性のあるバウンダリを導出する。
論文 参考訳(メタデータ) (2023-12-07T07:15:11Z) - Exploring validation metrics for offline model-based optimisation with
diffusion models [50.404829846182764]
モデルベース最適化(MBO)では、マシンラーニングを使用して、(基底真理)オラクルと呼ばれるブラックボックス関数に対する報酬の尺度を最大化する候補を設計することに興味があります。
モデル検証中に基底オラクルに対する近似をトレーニングし、その代わりに使用することができるが、その評価は近似的であり、敵の例に対して脆弱である。
本手法は,外挿量を測定するために提案した評価フレームワークにカプセル化されている。
論文 参考訳(メタデータ) (2022-11-19T16:57:37Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z) - Model Rectification via Unknown Unknowns Extraction from Deployment
Samples [8.0497115494227]
本稿では, 訓練後のモデル修正を, 教師付き方式で実施することを目的とした, 汎用的なアルゴリズムフレームワークを提案する。
RTSCVは未知の未知(u.u.s)を抽出する
RTSCVは最先端のアプローチよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2021-02-08T11:46:19Z) - Unsupervised Domain Adaptation for Speech Recognition via Uncertainty
Driven Self-Training [55.824641135682725]
WSJ をソースドメインとし,TED-Lium 3 とSWITCHBOARD を併用したドメイン適応実験を行った。
論文 参考訳(メタデータ) (2020-11-26T18:51:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。