論文の概要: A Rubric-Supervised Critic from Sparse Real-World Outcomes
- arxiv url: http://arxiv.org/abs/2603.03800v1
- Date: Wed, 04 Mar 2026 07:23:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.215874
- Title: A Rubric-Supervised Critic from Sparse Real-World Outcomes
- Title(参考訳): 粗末な実世界のアウトカムからのルーブリック・スーパービジョンの批判
- Authors: Xingyao Wang, Valerie Chen, Heng Ji, Graham Neubig,
- Abstract要約: 現実のコーディングエージェントは、成功信号がノイズが多く、遅延し、スパースであるループで人間と動作します。
本稿では,RLに基づくトレーニングや推論時間スケーリングの報奨モデルとして,スパースとノイズの相互作用データから"批判的"モデルを学習するプロセスを提案する。
- 参考スコア(独自算出の注目度): 87.11204512676193
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Academic benchmarks for coding agents tend to reward autonomous task completion, measured by verifiable rewards such as unit-test success. In contrast, real-world coding agents operate with humans in the loop, where success signals are typically noisy, delayed, and sparse. How can we bridge this gap? In this paper, we propose a process to learn a "critic" model from sparse and noisy interaction data, which can then be used both as a reward model for either RL-based training or inference-time scaling. Specifically, we introduce Critic Rubrics, a rubric-based supervision framework with 24 behavioral features that can be derived from human-agent interaction traces alone. Using a semi-supervised objective, we can then jointly predict these rubrics and sparse human feedback (when present). In experiments, we demonstrate that, despite being trained primarily from trace-observable rubrics and sparse real-world outcome proxies, these critics improve best-of-N reranking on SWE-bench (Best@8 +15.9 over Random@8 over the rerankable subset of trajectories), enable early stopping (+17.7 with 83% fewer attempts), and support training-time data curation via critic-selected trajectories.
- Abstract(参考訳): コーディングエージェントの学術ベンチマークは、単体テストの成功のような検証可能な報酬によって測定される自律的なタスク完了に報酬を与える傾向がある。
対照的に、現実世界のコーディングエージェントは、成功信号がノイズ、遅延、スパースであるループで人間と操作する。
このギャップをどうやって埋めるか?
本稿では,疎結合データと雑音相互作用データから「批判的」モデルを学習し,RLベーストレーニングと推論時間スケーリングの両方の報酬モデルとして使用できる手法を提案する。
具体的には,人間とエージェントのインタラクショントレースのみから導出可能な,24の行動特徴を備えたルーリックベースの監視フレームワークであるCrytic Rubricsを紹介する。
半教師付き目標を用いて、これらのルーリックを共同で予測し、人間のフィードバックをまばらにする(現在)。
実験では, トレーサブルなルーリックとスパースな実世界の結果プロキシから主に訓練されているにもかかわらず, これらの批評家は, SWE-bench (Best@8 +15.9 over Random@8 over the rerankable subset of trajectories), possible early stop (+17.7 with 83% less attempt), and support training-time data curation via critic-selected trajectories。
関連論文リスト
- Reward Modeling from Natural Language Human Feedback [77.75758630455357]
RLVR(Reinforcement Learning with Verifiable reward)は、GAM(Generative Reward Models)のトレーニングにおいて、プライオリティデータに対する強化学習が主流となっている。
本稿では,このような二項分類タスクにより,音質批判を伴わない正しい結果の推測が可能であることを実証する。
本稿では、自然言語フィードバックを利用してプロセス報酬信号を得る自然言語ヒューマンフィードバック(RM-NLHF)からのリワードモデリングを提案する。
論文 参考訳(メタデータ) (2026-01-12T09:23:43Z) - VARP: Reinforcement Learning from Vision-Language Model Feedback with Agent Regularized Preferences [13.337649128532307]
嗜好に基づくRLは、比較フィードバックから報酬を学ぶことによって、これらの落とし穴のいくつかを緩和する。
単一の最終状態の画像は、一般的にエージェントの完全な動きを捉えるのに失敗する。
本稿では,フィードバックの精度を向上し,報酬学習とエージェントのポリシーの整合性を向上する2部構成のソリューションを提案する。
論文 参考訳(メタデータ) (2025-03-18T01:51:27Z) - Agent-R: Training Language Model Agents to Reflect via Iterative Self-Training [18.896813839389893]
本稿では,言語エージェントをオンザフライでリフレクション可能な反復型自己学習フレームワーク,Agent-Rを提案する。
Agent-Rは、正しさに基づいてアクションを報酬または罰揚する従来の方法とは異なり、MCTSを活用して、誤ったトラジェクトリから正しいトラジェクトリを復元するトレーニングデータを構築する。
以上の結果から,Agent-Rは連続的にエラーから回復し,タイムリーなエラー訂正を可能にすることが示唆された。
論文 参考訳(メタデータ) (2025-01-20T11:46:04Z) - Weak Reward Model Transforms Generative Models into Robust Causal Event Extraction Systems [17.10762463903638]
我々は人的評価を近似するために評価モデルを訓練し、高い合意を得る。
そこで本研究では,アノテートデータの一部を用いて評価モデルを訓練する弱強監督手法を提案する。
論文 参考訳(メタデータ) (2024-06-26T10:48:14Z) - SMaRt: Improving GANs with Score Matching Regularity [114.43433222721025]
生成的敵ネットワーク(GAN)は通常、基礎となる多様体が複雑である非常に多様なデータから学ぶのに苦労する。
スコアマッチングは、生成したデータポイントを実データ多様体へ持続的にプッシュする能力のおかげで、この問題に対する有望な解決策であることがわかった。
提案手法は, 実世界のデータセットにおいて, 近似スコア関数として機能する事前学習拡散モデルを用いて, 最先端のGANの性能を継続的に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-11-30T03:05:14Z) - Unsupervised Dense Retrieval with Relevance-Aware Contrastive
Pre-Training [81.3781338418574]
関連性を考慮したコントラスト学習を提案する。
我々は、BEIRおよびオープンドメインQA検索ベンチマークにおいて、SOTAアン教師なしコントリバーモデルを一貫して改善する。
本手法は, 目標コーパスの事前訓練後, BM25に打ち勝つだけでなく, 優れた数発学習者として機能する。
論文 参考訳(メタデータ) (2023-06-05T18:20:27Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - RethinkCWS: Is Chinese Word Segmentation a Solved Task? [81.11161697133095]
中国語の単語(CWS)システムの性能は、ディープニューラルネットワークの急速な発展とともに、徐々に高水準に達している。
本稿では、私たちが達成した事柄の株式を取得し、CWSタスクに残されている事柄を再考する。
論文 参考訳(メタデータ) (2020-11-13T11:07:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。