論文の概要: Stop Comparing LLM Agents Without Disclosing the Harness
- arxiv url: http://arxiv.org/abs/2605.23950v1
- Date: Thu, 07 May 2026 15:24:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 02:55:42.968235
- Title: Stop Comparing LLM Agents Without Disclosing the Harness
- Title(参考訳): ハーネスを開示しないLLM剤の比較をやめる
- Authors: Yunbei Zhang, Janet Wang, Yingqiang Ge, Weijie Xu, Jihun Hamm, Chandan K. Reddy,
- Abstract要約: このポジションペーパーでは、同等のフロンティア能力を持つモデル間で評価された長時間水平タスクに対して、エージェント実行ハーネスは、ラップするモデルよりもエージェントパフォーマンスの強い決定要因である、と論じている。
本稿では,BingConstraint分散の形式化と保護を行う。この体制では,性能はモデル選択よりもハーネス構成により制御され,現在の評価プロトコルはモデル改善にハーネスレベルの利得を体系的に誤っている。
- 参考スコア(独自算出の注目度): 26.11566311050969
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This position paper argues that, for long-horizon tasks evaluated across models with comparable frontier capability, the agent execution harness, namely the infrastructure layer that governs context construction, tool interaction, orchestration, and verification around a language model, is often a stronger determinant of agent performance than the model it wraps. We formalize and defend the Binding Constraint Thesis: in this regime, performance variance is governed more by harness configuration than by model choice, and current evaluation protocols therefore systematically misattribute harness-level gains to model improvements. We support this thesis along three lines. First, a control-theoretic formalization treats the harness as the controller of a closed-loop dynamical system and the LLM as the stochastic policy it governs, which explains why small harness changes can produce performance shifts that exceed those obtained by substituting one model for another. Second, published benchmarks, industry deployments, and a controlled variance decomposition show that harness-induced variance can substantially exceed model-induced variance, including cases of model ranking reversal. Third, we propose a harness-aware evaluation framework with a disclosure standard and a variance decomposition protocol. Until harness specifications are disclosed, leaderboard comparisons for long-horizon agents should be treated as incomplete and potentially misleading.
- Abstract(参考訳): このポジションペーパーは、同等のフロンティア能力を持つモデルで評価される長期タスクに対して、エージェント実行ハーネス、すなわち、コンテキストの構築、ツールのインタラクション、オーケストレーション、検証を管理するインフラストラクチャ層は、しばしばそれがラップするモデルよりもエージェントパフォーマンスのより強力な決定要因である、と論じている。
この体制では、性能のばらつきはモデル選択よりもハーネス構成によりより支配され、現在の評価プロトコルはモデル改善にハーネスレベルの利得を体系的に誤解している。
私たちはこの論文を3行で支持する。
まず、制御理論の形式化により、ハーネスを閉ループ力学系のコントローラとして扱い、LLMをそれが支配する確率的ポリシーとして扱う。
第2に、ベンチマーク、業界展開、制御された分散分解は、モデルランキング逆転の場合を含む、ハーネス誘起の分散がモデル誘起の分散を大幅に超えることを示している。
第3に、開示基準と分散分解プロトコルを備えたハーネス対応評価フレームワークを提案する。
ハーネス仕様が公表されるまでは、ロングホライゾンエージェントのリーダーボード比較は不完全であり、潜在的に誤解を招くものとして扱われるべきである。
関連論文リスト
- On Predicting the Post-training Potential of Pre-trained LLMs [60.07459271263409]
本稿では,ポストトレーニング前のベースモデルの性能予測という,ポストトレーニング後の潜在能力を予測するための新しいタスクを紹介する。
本稿では,応答判別を活用することで,ベースモデルの生成ギャップを回避できる統一フレームワークであるRuDEを提案する。
実験では、トレーニング後のパフォーマンスと90%以上の相関を示す。
論文 参考訳(メタデータ) (2026-05-12T11:33:49Z) - A Probabilistic Consensus-Driven Approach for Robust Counterfactual Explanations [2.4788097726838667]
本稿では,モデル変更に対するロバスト性を確保するために,データ分布と妥当なモデル決定空間を共同でモデル化する手法を提案する。
提案手法は,CFEをモデル変化に対して可塑性かつ安定な領域へ効果的にプッシュする。
論文 参考訳(メタデータ) (2026-04-19T15:31:18Z) - Harness as an Asset: Enforcing Determinism via the Convergent AI Agent Framework (CAAF) [0.0]
大規模言語モデルは、安全クリティカルエンジニアリングにおける制御可能性のギャップを生み出します。
本稿では,エージェントをオープンループ生成からクローズループフェールセーフ決定性に移行するConvergent AI Agent Framework(CAAF)を紹介する。
CAAFの3つの柱は相補的な故障面に対処し、コモディティコストで制御可能性ギャップを閉じることはない。
論文 参考訳(メタデータ) (2026-04-18T15:15:09Z) - CDRRM: Contrast-Driven Rubric Generation for Reliable and Interpretable Reward Modeling [61.75914342638658]
CDRRM(Contrast-Driven Reward Model)は、高品質なルーリック生成と優先判断のためのフレームワークである。
この作業は、報酬モデリングのためのスケーラブルで解釈可能で、データ効率のよいパスを提供する。
論文 参考訳(メタデータ) (2026-03-09T07:15:23Z) - Every Step Counts: Decoding Trajectories as Authorship Fingerprints of dLLMs [63.82840470917859]
本稿では,dLLMの復号化機構をモデル属性の強力なツールとして利用できることを示す。
本稿では、デコードステップ間の構造的関係を捉え、モデル固有の振る舞いをよりよく明らかにする、DDM(Directed Decoding Map)と呼ばれる新しい情報抽出手法を提案する。
論文 参考訳(メタデータ) (2025-10-02T06:25:10Z) - Conformalized Exceptional Model Mining: Telling Where Your Model Performs (Not) Well [31.013018198280506]
本稿では,新しいフレームワークであるConformalized Exceptional Model Miningを紹介する。
コンフォーマル予測の厳密さと例外モデルマイニングの説明力を組み合わせる。
我々は、共形予測の厳密なカバレッジ保証を通じて不確実性を定量化する新しいモデルクラスmSMoPEを開発する。
論文 参考訳(メタデータ) (2025-08-21T13:43:14Z) - Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models [86.88657425848547]
大型推論モデル(LRMs)はすでに長い連鎖推論のための潜在能力を持っている。
我々は、自動生成の自己検証タスクを使用して、モデルに推論、帰納、誘拐の3つのメタ能力を持たせることを明確にした。
我々の3つのステージ・パイプラインの個別アライメント、パラメータ空間のマージ、ドメイン固有の強化学習は、命令調整ベースラインと比較して10%以上のパフォーマンス向上を実現します。
論文 参考訳(メタデータ) (2025-05-15T17:58:33Z) - SpecRouter: Adaptive Routing for Multi-Level Speculative Decoding in Large Language Models [21.933379266533098]
大規模言語モデル(LLM)は、推論品質と計算コストの間に重要なトレードオフをもたらす。
既存のサービス戦略では、固定されたモデルスケールや静的な2段階の投機的デコードを用いることが多い。
本稿では,LLM推論を適応的ルーティング問題として再定義する新しいフレームワークであるsystemnameを紹介する。
論文 参考訳(メタデータ) (2025-05-12T15:46:28Z) - Linguistic Fuzzy Information Evolution with Random Leader Election Mechanism for Decision-Making Systems [58.67035332062508]
言語ファジィ情報進化はエージェント間の情報交換を理解する上で重要である。
エージェントの重みの違いは、古典的なDeGrootモデルにおいて異なる収束結果をもたらす可能性がある。
本稿では,言語ファジィ情報力学の新しい3つのモデルを提案する。
論文 参考訳(メタデータ) (2024-10-19T18:15:24Z) - Double and Single Descent in Causal Inference with an Application to
High-Dimensional Synthetic Control [2.3173485093942943]
機械学習では、非常に多くの自由パラメータがあり、モデルがトレーニングデータに完全に適合する。
多数の制御ユニットを有する高次元合成制御推定器の性能について述べる。
制御ユニットの追加は, 処理前適合が完璧である点を超えても, 計算性能の向上に有効であることがわかった。
論文 参考訳(メタデータ) (2023-05-01T07:54:53Z) - Language as a Latent Sequence: deep latent variable models for
semi-supervised paraphrase generation [47.33223015862104]
本稿では,観測されたテキストから遅延シーケンス推論を行うVSARという新しい教師なしモデルを提案する。
また、テキストペアからの情報を活用するために、提案したVSARモデルと統合するために設計されたDDLと呼ばれる新しい教師付きモデルを導入する。
実験により, このモデルを組み合わせることで, 完全データに基づく最先端の教師付きベースラインに対して, 競争性能が向上することが示唆された。
論文 参考訳(メタデータ) (2023-01-05T19:35:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。