Fugu-MT 論文翻訳(概要): The Constraint Tax: Measuring Validity-Correctness Tradeoffs in Structured Outputs for Small Language Models

論文の概要: The Constraint Tax: Measuring Validity-Correctness Tradeoffs in Structured Outputs for Small Language Models

arxiv url: http://arxiv.org/abs/2605.26128v1
Date: Wed, 20 May 2026 07:11:32 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-27 17:51:41.184808
Title: The Constraint Tax: Measuring Validity-Correctness Tradeoffs in Structured Outputs for Small Language Models
Title（参考訳）: 制約税:小言語モデルにおける構造化出力の妥当性・正当性トレードオフの測定
Authors: Jaideep Ray,
Abstract要約: 本稿では、デバイス上および低コストのSLM(Small Language Model)デプロイメントを対象としている。出力制約が根底にある答えを変えることなく信頼性を向上させることを示す。我々は,回答と実行可能精度損失を分離するための測定プロトコルであるEmphconstraint Taxを導入する。
参考スコア（独自算出の注目度）: 0.5482532589225553
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Production LLM systems increasingly require machine-readable outputs: JSON objects, typed traces, regex-constrained fields, and tool-call schemas. This paper targets on-device and low-cost small language model (SLM) deployments, where sub-3B models are attractive for privacy, latency, and commodity hardware but have limited capacity to satisfy schemas while solving tasks. The usual engineering assumption is that hard output constraints improve reliability without changing the underlying answer. We show that this assumption is unsafe for small models. We introduce \emph{constraint tax}, a measurement protocol for isolating the answer and executable-accuracy loss caused by structured-output constraints at fixed model, fixed task distribution, and fixed problem instances. Across 15,000 commodity-GPU generations with Qwen2.5-0.5B, Qwen2.5-1.5B, and SmolLM2-1.7B, hard answer-only schema decoding raises schema validity from 61.5\% to 100.0\%, but lowers answer accuracy from 19.7\% to 11.0\% and increases wrong-valid-schema outputs from 49.5\% to 88.9\%. The strongest industry analogue is a deterministic calendar tool-call task: Qwen2.5-1.5B achieves 91.5\% executable accuracy with prompt-only JSON but only 48.0\% under the same hard tool-call schema, while both modes are 100.0\% schema-valid. The error is semantic, not structural. We also show that the 3B boundary still pays a direct-schema tax and that delayed packaging supports a constructive design pattern: reason free, constrain late. The practical conclusion is direct: production systems should report schema validity, answer accuracy, executable accuracy, and wrong-valid-schema rate separately.
Abstract（参考訳）: プロダクションLLMシステムは、JSONオブジェクト、型付きトレース、regex制約されたフィールド、ツールコールスキーマといった、マシン可読な出力を必要としている。本稿では、サブ3Bモデルは、プライバシ、レイテンシ、コモディティハードウェアに魅力的なが、タスクを解決しながらスキーマを満足する能力に制限がある、デバイス上および低コストのSLM(Small Language Model)デプロイメントをターゲットにする。通常のエンジニアリングの前提は、根底にある答えを変えることなく、ハード出力の制約によって信頼性が向上するというものである。この仮定は小さなモデルでは安全でないことを示す。本稿では, 定型モデル, 定型タスク分布, 固定問題インスタンスにおける構造化出力制約による応答と実行可能精度の損失を分離するプロトコルである 'emph{constraint tax} を紹介する。 Qwen2.5-0.5B、Qwen2.5-1.5B、SmolLM2-1.7Bを含む15,000個のコモディティGPU世代で、ハードな応答のみのスキーマデコーディングは、スキーマの妥当性を 61.5\% から 100.0\% に引き上げるが、応答精度を 19.7\% から 11.0\% に下げ、間違った値スキーマ出力を 49.5\% から 88.9\% に引き上げる。 Qwen2.5-1.5Bは、プロンプトのみのJSONで91.5\%の実行可能な精度を達成するが、同じハードツールコールスキーマの下では48.0\%しか得られず、どちらのモードも100.0\%スキーマバリッドである。エラーは意味的であり、構造的ではない。また、3B境界は依然として直接スキーマ税を支払っており、遅延パッケージングは建設的なデザインパターン(理由フリー、制約遅れ)をサポートしていることも示しています。プロダクションシステムは、スキーマの妥当性、答えの正確性、実行可能精度、誤り正誤率を別々に報告する必要がある。

関連論文リスト

Models Can Model, But Can't Bind: Structured Grounding in Text-to-Optimization [54.749573452394664]
定式化自体が単純である場合でも、インスタンスデータが大きくなるにつれて精度が低下する。我々は, 数値データを構造化ファイルに外部化する単純な推論時アプローチであるBINDを用いて, モデルがプロンプトプロンプトからではなく, データをバインドする。我々は,モデルのみをバインディングのみに微調整することで仮説を検証し,3つの構造的に異なる最適化カテゴリにおいて,エンドツーエンドのSFTおよびRLよりも優れていることを示す。
論文参考訳（メタデータ） (2026-05-20T21:25:41Z)
TSCG: Deterministic Tool-Schema Compilation for Agentic LLM Deployments [0.0]
生産エージェントフレームワークは、言語モデルによる解釈ではなく、機械解析用に設計されたフォーマットであるMPPとしてツールスキーマを送信する。小型モデル(4B-14B)では、このプロトコルのミスマッチが、本番サイズでのツール使用障害の大部分の原因となっている。本稿では,このミスマッチをAPI境界で解決する決定論的ツールスキーマコンパイラTSCGを提案する。
論文参考訳（メタデータ） (2026-05-04T15:35:45Z)
When Correct Isn't Usable: Improving Structured Output Reliability in Small Language Models [2.064923532131528]
デプロイされた言語モデルは、正しいものとフォーマットに準拠した出力を生成する必要がある。本稿では,GSM8KとMATHという2つの数学的ベンチマークを用いて,この構造化出力信頼性ギャップについて検討する。対象モデルへのブラックボックスAPIアクセスのみを必要とする反復的なシステムプロンプトであるAloLabを開発した。
論文参考訳（メタデータ） (2026-05-04T09:07:44Z)
Tool Attention Is All You Need: Dynamic Tool Gating and Lazy Schema Loading for Eliminating the MCP/Tools Tax in Scalable Agentic Workflows [2.2228811750157482]
私たちは、"Attention Is All You Need"パラダイムを一般化するスケーラブルな層メカニズムであるTool Attentionを紹介します。シミュレーションした120toolの6サーバベンチマークで、サーバ単位のトークン数を実際のMPPデプロイメントの公開監査に校正する。ツールアテンションはターン当たりのツールトークンを95.0%(47.3k ->2.4k)に減らし、効果的なコンテキスト利用(トークン比の量)を24%から91%に引き上げる。
論文参考訳（メタデータ） (2026-04-23T16:10:00Z)
Did You Forget What I Asked? Prospective Memory Failures in Large Language Models [0.0]
大規模な言語モデルは、必要なタスクを同時に実行する必要があるときに、フォーマット命令を満たさないことが多い。制御パラダイムを用いて、認知心理学から先進記憶にインスパイアされたレンズを通して、この行動を研究する。脆弱性は型に依存しやすく、50%まで低下する一方、回避制約は比較的堅牢である。サリエンス強化フォーマット(明示的な命令フレーミングと後続のリマインダー)は、多くの設定で性能を90-100%に回復する。
論文参考訳（メタデータ） (2026-03-07T05:58:19Z)
PromptPort: A Reliability Layer for Cross-Model Structured Extraction [0.11280931253550518]
LLMによる構造化抽出は、モデルが理解できないためではなく、出力フォーマットがモデルやプロンプト間で信頼できないため、本番環境では失敗する。本稿では,決定論的正準化と軽量検証器(DistilBERT)と安全オーバライドポリシを組み合わせた信頼性層であるPromptPortを提案する。この方法は、保留モデルファミリに一般化し、不確実な場合には明示的な棄権を与え、プロダクションデプロイメントにおける信頼性の高い構造化抽出を可能にする。
論文参考訳（メタデータ） (2026-01-06T03:54:27Z)
AdapTrack: Constrained Decoding without Distorting LLM's Output Intent [53.75852524070165]
言語モデルに基づくコード生成と補完ツールは、時には必要な制約を満たさないコードを生成することがある。制約に固執するコードを生成するために、制約付き復号法が開発された。 AdapTrackは、モデルの出力インテントを歪めるのを避けるため、制約に準拠するだけでなく、モデルの出力インテントと意味的に一致した結果を生成する。
論文参考訳（メタデータ） (2025-10-20T10:11:34Z)
Catch Your Breath: Adaptive Computation for Self-Paced Sequence Production [55.76222360698305]
我々は,言語モデルが入力トークン毎に使用する計算ステップの数を動的かつ自律的に拡張できるような,教師付きトレーニング目標のクラスを探索する。任意のトークンに対して、モデルは don't know> 出力を出力することで、追加の計算ステップを要求できる。 CYBモデルでは精度が向上し,トークンレベルの複雑性とコンテキストに処理時間を適用することができる。
論文参考訳（メタデータ） (2025-10-13T21:07:05Z)
LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters! [53.84130385074551]
大推論モデル(LRM)は、長いチェーン・オブ・シント(Long CoT)に従うことによって複雑な推論問題に取り組むまた,Large Language Model (LLM) は,データ効率の教師付き微調整 (SFT) とパラメータ効率の低い低ランク適応 (LoRA) により,Long CoT推論を効果的に学習できることを見出した。たった17kのCoTトレーニングサンプルで、Qwen2.5-32B-Instructモデルは、幅広い数学およびコーディングベンチマークで大幅に改善されている。
論文参考訳（メタデータ） (2025-02-11T08:48:48Z)
Gradient-Free Structured Pruning with Unlabeled Data [57.999191898036706]
ラベルのないデータのみを使用する勾配のない構造化プルーニングフレームワークを提案する。元々のFLOPカウントの最大40%は、考慮されたすべてのタスクで4%未満の精度で削減できる。
論文参考訳（メタデータ） (2023-03-07T19:12:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。