論文の概要: When Correct Isn't Usable: Improving Structured Output Reliability in Small Language Models
- arxiv url: http://arxiv.org/abs/2605.02363v1
- Date: Mon, 04 May 2026 09:07:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.20559
- Title: When Correct Isn't Usable: Improving Structured Output Reliability in Small Language Models
- Title(参考訳): 小言語モデルにおける構造的出力信頼性の改善
- Authors: Cosimo Galeone, Minsu Park, Giuseppe Ettorre, Daniele Ligorio,
- Abstract要約: デプロイされた言語モデルは、正しいものとフォーマットに準拠した出力を生成する必要がある。
本稿では,GSM8KとMATHという2つの数学的ベンチマークを用いて,この構造化出力信頼性ギャップについて検討する。
対象モデルへのブラックボックスAPIアクセスのみを必要とする反復的なシステムプロンプトであるAloLabを開発した。
- 参考スコア(独自算出の注目度): 2.064923532131528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deployed language models must produce outputs that are both correct and format-compliant. We study this structured-output reliability gap using two mathematical benchmarks -- GSM8K and MATH -- as a controlled testbed: ground truth is unambiguous and the output contract is strict (JSON with required fields). We evaluate three 7-9B models under five prompting strategies and report output accuracy -- the joint event of mathematical correctness and valid JSON structure -- as the primary metric. A systematic format failure emerges: NAIVE prompting (no system prompt) achieves up to 85% task accuracy on GSM8K but 0% output accuracy across all models and datasets. REFERENCE prompting (a minimal hand-written JSON format prompt) fares little better, yielding 0% output accuracy for two of four models tested. Constrained decoding enforces syntactic validity but incurs 3.6x-8.2x latency overhead and in several settings degrades task performance substantially. To overcome this limitation, we developed AloLab, an iterative system-prompt optimizer (meta-agent: Claude Sonnet 4.5) requiring only black-box API access to the target model; it reaches 84-87% output accuracy on GSM8K and 34-40% on MATH across five independent runs per model, with 29/30 paired McNemar comparisons against the best static prompt significant at p < 0.05, at near-NAIVE inference latency and without model fine-tuning. The same format failure extends to GPT-4o (OpenAI, 2024), a proprietary closed-source model: REFERENCE achieves 0% output accuracy due to systematic markdown-fence wrapping, while AloLab reaches 95.2% [94.8, 95.6]. An ablation replacing the Sonnet 4.5 meta-agent with Claude 3 Haiku reduces mean output accuracy to 61.0% and increases run-to-run standard deviation from <1 pp to 21.8 pp, confirming that meta-agent capability is a primary driver of optimization quality.
- Abstract(参考訳): デプロイされた言語モデルは、正しいものとフォーマットに準拠した出力を生成する必要がある。
GSM8KとMATHという2つの数学的ベンチマークを用いて,この構造化出力信頼性ギャップを制御テストベッドとして検討した。
3つの7-9Bモデルを5つのプロンプト戦略に基づいて評価し、その出力精度(数学的正確性と有効なJSON構造の共同イベント)を主指標として報告する。
NAIVEプロンプト(システムプロンプトなし)は、GSM8K上で最大85%のタスク精度を達成するが、すべてのモデルやデータセットで0%の出力精度を実現する。
参照プロンプト(最小限の手書きJSONフォーマットプロンプト)は少し改善され、テストされた4つのモデルのうち2つで0%の出力精度が得られる。
制約された復号化は構文上の妥当性を強制するが、3.6x-8.2倍の遅延を発生させ、いくつかの設定でタスク性能を著しく低下させる。
この制限を克服するために、私たちは、ターゲットモデルへのブラックボックスAPIアクセスのみを必要とする反復的なシステムプロンプトオプティマイザであるAloLabを開発しました。
同じフォーマットの失敗は、プロプライエタリなクローズドソースモデルである GPT-4o (OpenAI, 2024) にも及んでいる。
Sonnet 4.5メタエージェントをClaude 3 Haikuに置き換えたアブレーションは、平均出力精度を61.0%に低下させ、実行時標準偏差を<1 ppから21.8 ppに増加させ、メタエージェント能力が最適化品質の主要な要因であることを確認した。
関連論文リスト
- What Single-Prompt Accuracy Misses: A Multi-Variant Reliability Audit of Language Models [0.0]
シングルプロンプト精度は、言語モデルをベンチマークする主要な方法であるが、重要な信頼性障害を見逃す可能性がある。
15モデルオープンウェイトコーパスの評価を行い,5つの分類と推論ベンチマークによる10のインストラクトモデルに着目した信頼性解析を行った。
まず、評価設計は結論を根本的に変えることができる。
第2に、信頼信号は脆弱である。MMLU-Proでは、各プライマリモデルは、その精度と同一行上のトークン確率信頼の両方よりもかなり高い信頼度を言語的に報告し、単一のプロンプト変種における単一のモデルに対して、動詞のパースレートが崩壊する可能性がある。
論文 参考訳(メタデータ) (2026-05-03T20:05:08Z) - ACAR: Adaptive Complexity Routing for Multi-Model Ensembles with Auditable Decision Traces [3.151184728006369]
本稿では,聴覚条件下でのマルチモデルオーケストレーションのための測定フレームワークACARを提案する。
ACARは、N=3プローブサンプルから計算した自己整合分散(sigma)を使用して、単一モデル、2モデル、3モデル実行モードでタスクをルーティングする。
我々は4つのベンチマークにまたがる1,510のタスクに対してACARを評価し、7,550以上の監査可能な実行を生成した。
論文 参考訳(メタデータ) (2026-02-06T23:27:17Z) - PromptPort: A Reliability Layer for Cross-Model Structured Extraction [0.11280931253550518]
LLMによる構造化抽出は、モデルが理解できないためではなく、出力フォーマットがモデルやプロンプト間で信頼できないため、本番環境では失敗する。
本稿では,決定論的正準化と軽量検証器(DistilBERT)と安全オーバライドポリシを組み合わせた信頼性層であるPromptPortを提案する。
この方法は、保留モデルファミリに一般化し、不確実な場合には明示的な棄権を与え、プロダクションデプロイメントにおける信頼性の高い構造化抽出を可能にする。
論文 参考訳(メタデータ) (2026-01-06T03:54:27Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - ObjexMT: Objective Extraction and Metacognitive Calibration for LLM-as-a-Judge under Multi-Turn Jailbreaks [12.396822247035578]
目的抽出とメタ認知のためのベンチマークであるexMTを提案する。
マルチターン書き起こしが与えられた場合、モデルは1文ベース目標と自己報告された自信を出力しなければならない。
正確性は金の目標と類似性によって評価され、300の校正項目で1度閾値付けされる。
論文 参考訳(メタデータ) (2025-08-23T03:32:04Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - S*: Test Time Scaling for Code Generation [55.11863577956177]
コード生成のための最初のハイブリッドテストタイムスケーリングフレームワークであるS*を提案する。
S*は生成されたコードのカバレッジと選択精度を大幅に改善する。
論文 参考訳(メタデータ) (2025-02-20T09:18:53Z) - Entropy Adaptive Decoding: Dynamic Model Switching for Efficient Inference [0.0]
本稿では,効率的な言語モデル推論のための新しいアプローチであるEntropy Adaptive Decoding (EAD)を提案する。
EADは予測の不確実性に基づいて、異なるサイズのモデル間で切り替える。
異なるモデルファミリー間で顕著な効率向上を示す。
論文 参考訳(メタデータ) (2025-02-05T22:15:21Z) - Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs [54.05511925104712]
本稿では,Step-DPOと呼ばれるシンプルで効果的でデータ効率のよい手法を提案する。
Step-DPOは、個々の推論ステップを、論理的に回答を評価するのではなく、優先最適化の単位として扱う。
以上の結果から,70B パラメータ以上のモデルでは,10K の選好データペアと500 Step-DPO トレーニングステップ以下では,MATH の精度が約3%向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-26T17:43:06Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。