論文の概要: It's Not the Capability: Harness Sensitivity Is Non-Monotone Across LLM Agent Tiers
- arxiv url: http://arxiv.org/abs/2605.26731v1
- Date: Tue, 26 May 2026 09:08:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.777292
- Title: It's Not the Capability: Harness Sensitivity Is Non-Monotone Across LLM Agent Tiers
- Title(参考訳): ハーネス感度はLSMのエージェントタイアに非モノトン(動画あり)
- Authors: Yong-eun Cho,
- Abstract要約: LLMエージェントのデプロイメントにおける一般的な仮定は、より構造化されたハーネスは信頼性を普遍的に改善する、というものである。
我々はこの仮説を,4つの能力層にまたがる6つのモデルにまたがる制御された432回の実験により検証した。
我々は6ラベルの障害分類を導入し、form_violationが有能なモデル障害を、 wrong_fileが低能力な障害を、それぞれ支配していることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A prevalent assumption in LLM agent deployment holds that more structured harnesses universally improve reliability, and that higher-capability models need proportionally less structural guidance -- together implying a monotone inverse relationship between model capability tier and optimal harness complexity. We test this hypothesis through a controlled 432-run experiment crossing six models across four capability tiers with three harness conditions (light, balanced, strict) on HEAT-24, a 24-task synthetic benchmark with git-based workspace verification. Our results refute the monotone inverse relationship on two fronts. First, for the frontier chat model evaluated (Gemini 2.5 Flash), increased harness verbosity lowers VTSR by 29-38 percentage points -- a harness-complexity paradox. Second, for the frontier reasoning model evaluated (Qwen3.5-122B, extended thinking enabled), strict harness achieves the highest VTSR (91.7%) and the lowest latency, the opposite of the prediction. Within the constrained tier, a 2B model (Gemma4:e2B) matches strong-open-tier stability at 91.7% across all harnesses. Because each tier is represented by a single model in this study, these results should be interpreted as model-specific observations; harness sensitivity appears non-monotone across the models evaluated, and depends critically on model type (chat vs. reasoning). We introduce a six-label failure taxonomy showing that format_violation dominates capable-model failures while wrong_file dominates low-capability failures, and we derive practical tier-aware harness selection guidelines.
- Abstract(参考訳): LLMエージェントのデプロイにおける一般的な仮定は、より構造化されたハーネスは信頼性を普遍的に改善し、高機能モデルは比例的により構造的なガイダンスを必要とする、というものである。
この仮説は、gitベースのワークスペース検証を備えた24タスク総合ベンチマークであるHEAT-24上で、3つのハーネス条件(軽量、平衡、厳密)を持つ4つの機能層にまたがる6つのモデルにまたがる制御された432回の実験を通して検証する。
その結果,2つの面における単調逆関係は否定的であった。
まず、フロンティアチャットモデルの評価(Gemini 2.5 Flash)において、ハーネス冗長性の増大はVTSRを29-38ポイント下げる。
第2に、評価されたフロンティア推論モデル(Qwen3.5-122B、拡張思考が可能)では、厳密なハーネスはVTSR(91.7%)と低レイテンシを達成し、予測とは逆である。
拘束層内において、2Bモデル(Gemma4:e2B)は全てのハーネスの91.7%で強オープン層安定性と一致する。
各層は1つのモデルで表されるので、これらの結果はモデル固有の観察として解釈されるべきである。
我々は,6ラベルの故障分類を導入し,フォーマット_違反が有能なモデル障害を支配し, wrong_fileが低能力な障害を支配していることを示す。
関連論文リスト
- Persona-Model Collapse in Emergent Misalignment [0.0]
有害な内容を持つ狭いデータに対する微調整された大きな言語モデルは、無関係なプロンプトに対して広範囲に不整合な振る舞いをもたらす。
モラル・サセプティビリティ(S)とモラル・ロバストネス(R)の2つの指標を用いてこの仮説を検証する。
これらのメトリクスは、与えられた文字(S)と、与えられた文字(R)をシミュレートするときにその一貫性を識別するモデルの能力を形式化する。
論文 参考訳(メタデータ) (2026-05-13T00:48:57Z) - The Model Says Walk: How Surface Heuristics Override Implicit Constraints in LLM Reasoning [9.898274894485107]
大きな言語モデルは、サージェントサーフェスキューが計算不可能な実行可能性制約と競合する場合に、体系的に失敗する。
診断・診断・ブリッジ・トリート・フレームワークを用いてこれを研究する。
論文 参考訳(メタデータ) (2026-03-30T21:36:09Z) - Silent Commitment Failure in Instruction-Tuned Language Models: Evidence of Governability Divergence Across Architectures [0.0]
我々は、モデルのエラーが出力コミット前に検出可能で、一度検出されると修正できる程度、統治性を導入します。
ベンチマーク精度は支配可能性を予測するものではなく、補正能力は検出と独立に異なり、同一のガバナンス足場はモデル間で逆の効果をもたらす。
本稿では,モデルとタスクの組み合わせをGovernable, Monitor Only, Steer Blind, Ungovernableの4つに分類する。
論文 参考訳(メタデータ) (2026-03-22T21:50:28Z) - The Devil in the Details: Emergent Misalignment, Format and Coherence in Open-Weights LLMs [0.0]
次世代オープンウェイトモデルがQwen-2.5ファミリーに類似した耐性を示すかどうかを評価する。
9つの現代的なオープンウェイトモデルにまたがって効果を再現する。
論文 参考訳(メタデータ) (2025-11-25T09:25:33Z) - Adapt in the Wild: Test-Time Entropy Minimization with Sharpness and Feature Regularization [85.50560211492898]
テスト時適応(TTA)は、テストデータが分散シフトが混在している場合、モデルの性能を改善または損なう可能性がある。
これはしばしば、既存のTTAメソッドが現実世界にデプロイされるのを防ぐ重要な障害である。
両面からTTAを安定化させるため,SARと呼ばれる鋭く信頼性の高いエントロピー最小化手法を提案する。
論文 参考訳(メタデータ) (2025-09-05T10:03:00Z) - Goedel-Prover-V2: Scaling Formal Theorem Proving with Scaffolded Data Synthesis and Self-Correction [95.91743732150233]
一連のオープンソースの言語モデルであるGoedel-Prover-V2は、自動定理の新たな最先端を証明した。
我々は、より複雑な定理をマスターするためにモデルを訓練することの困難さを増す合成タスクを生成する。
Goedel-Prover-V2-32Bは、標準モードのpass@32でMiniF2Fの88.1%、自己補正モードの90.4%を達成する。
論文 参考訳(メタデータ) (2025-08-05T16:28:22Z) - Multi-Level Collaboration in Model Merging [56.31088116526825]
本稿では,モデルマージとモデルアンサンブルの本質的な関係について考察する。
これまでの制限が満たされていない場合でも、モデルのマージによって、アンサンブルと同じような、ほぼ同一かつ優れたパフォーマンスを達成する方法がまだ存在することが分かっています。
論文 参考訳(メタデータ) (2025-03-03T07:45:04Z) - Are Sample-Efficient NLP Models More Robust? [90.54786862811183]
サンプル効率(所定のID精度に到達するために必要なデータ量)とロバスト性(OOD評価モデルの評価方法)の関係について検討する。
高いサンプル効率は、いくつかのモデリング介入やタスクにおいて、より平均的なOODロバスト性にのみ相関するが、それ以外は相関しない。
これらの結果から,サンプル効率向上のための汎用手法は,データセットとタスクに依存した汎用的なOODロバスト性向上をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2022-10-12T17:54:59Z) - Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文 参考訳(メタデータ) (2021-10-07T11:58:35Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。