論文の概要: STED and Consistency Scoring: A Framework for Evaluating LLM Structured Output Reliability
- arxiv url: http://arxiv.org/abs/2512.23712v1
- Date: Thu, 27 Nov 2025 02:49:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-04 08:45:17.109858
- Title: STED and Consistency Scoring: A Framework for Evaluating LLM Structured Output Reliability
- Title(参考訳): STED and Consistency Scoring: LLM構造化出力信頼性評価フレームワーク
- Authors: Guanghui Wang, Jinze Yu, Xing Zhang, Dayuan Jiang, Yin Song, Tomal Deb, Xuefeng Liu, Peiyang He,
- Abstract要約: 大規模言語モデル(LLM)は、構造化データ生成のためにますます多くデプロイされている。
LLM生成した構造化出力の整合性の評価と改善のための総合的なフレームワークを提案する。
- 参考スコア(独自算出の注目度): 11.095198847819573
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) are increasingly deployed for structured data generation, yet output consistency remains critical for production applications. We introduce a comprehensive framework for evaluating and improving consistency in LLM-generated structured outputs. Our approach combines: (1) STED (Semantic Tree Edit Distance), a novel similarity metric balancing semantic flexibility with structural strictness when comparing JSON outputs, and (2) a consistency scoring framework aggregating multiple STED measurements across repeated generations to quantify reliability. Through systematic experiments on synthetic datasets with controlled schema, expression, and semantic variations, we demonstrate STED achieves superior performance ($0.86-0.90$ similarity for semantic equivalents, $0.0$ for structural breaks) compared to existing metrics including TED, BERTScore, and DeepDiff. Applying our framework to benchmark six LLMs reveals significant variations: Claude-3.7-Sonnet demonstrates exceptional consistency, maintaining near-perfect structural reliability even at high temperatures ($T=0.9$), while models like Claude-3-Haiku and Nova-Pro exhibit substantial degradation requiring careful tuning. Our framework enables practical applications including targeted model selection for structured tasks, iterative prompt refinement for reproducible results, and diagnostic analysis to identify inconsistency root causes. This work provides theoretical foundations and practical tools for ensuring reliable structured output generation in LLM-based production systems.
- Abstract(参考訳): 大規模言語モデル(LLM)は、構造化データ生成のためにますますデプロイされているが、生産アプリケーションには出力一貫性が不可欠である。
LLM生成した構造化出力の整合性の評価と改善のための総合的なフレームワークを提案する。
STED(Semantic Tree Edit Distance)は、JSON出力を比較する際に、構造的厳密さとセマンティックな柔軟性のバランスをとる新しい類似度尺度である。
制御されたスキーマ、式、セマンティックなバリエーションを持つ合成データセットの体系的な実験を通じて、STEDはTED、BERTScore、DeepDiffといった既存のメトリクスと比較して優れたパフォーマンス(意味論的等価性は0.86-0.90$、構造的ブレークは0.0$)を達成することを実証した。
Claude-3.7-Sonnetは異常な一貫性を示し、高温でもほぼ完璧な構造的信頼性を維持する(T=0.9$)。
本フレームワークは,構造化タスクに対する対象モデル選択,再現性のある結果に対する反復的即時改善,不整合根本原因の同定のための診断解析などの実用的応用を実現する。
この研究は、LCMベースの生産システムにおいて、信頼性の高い構造化された出力生成を保証するための理論的基礎と実用的なツールを提供する。
関連論文リスト
- RL-Struct: A Lightweight Reinforcement Learning Framework for Reliable Structured Output in LLMs [0.08594140167290097]
大規模言語モデル(LLM)は、自然言語の生成と推論において顕著な能力を示した。
自動化されたソフトウェアエコシステムへの統合は、しばしば"構造ギャップ"によって妨げられます。
このギャップを埋めるための軽量で効率的な強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-29T04:47:14Z) - SO-Bench: A Structural Output Evaluation of Multimodal LLMs [43.74273224757814]
マルチモーダルな大規模言語モデル (MLLM) は、現実のエージェント的な設定でますます多くデプロイされている。
テキスト領域における構造化生成の最近の進歩にもかかわらず、スキーマ基底情報抽出と視覚的入力に対する推論を体系的に評価するベンチマークはいまだ存在しない。
我々は、慎重に設計されたSO-Benchベンチマークを用いて、MLLMの視覚構造出力能力を総合的に研究する。
論文 参考訳(メタデータ) (2025-11-23T16:53:16Z) - Dynamic Generation of Multi-LLM Agents Communication Topologies with Graph Diffusion Models [99.85131798240808]
我々はtextitGuided Topology Diffusion (GTD) と呼ばれる新しい生成フレームワークを導入する。
条件付き離散グラフ拡散モデルにインスパイアされたGTD式は、反復的な構成過程としてトポロジー合成を行う。
各ステップで生成は、多目的報酬を予測する軽量プロキシモデルによって制御される。
実験により、GTDは高いタスク適応性、スパース、効率的な通信トポロジを生成できることが示されている。
論文 参考訳(メタデータ) (2025-10-09T05:28:28Z) - CoT Referring: Improving Referring Expression Tasks with Grounded Reasoning [67.18702329644526]
CoT Referringは、構造化されたチェーン・オブ・シークレット・トレーニングデータ構造を通じて、モデル推論をモダリティにわたって強化する。
トレーニングデータを再構築して、新たな出力フォームを実行し、既存のデータセットに新たなアノテーションを提供します。
また、検出とセグメント化機能を統合MLLMフレームワークに統合し、新しい適応重み付き損失で学習して性能を最適化する。
論文 参考訳(メタデータ) (2025-10-03T08:50:21Z) - Round-trip Reinforcement Learning: Self-Consistent Training for Better Chemical LLMs [51.29260537017623]
大規模言語モデル (LLM) は計算化学の汎用基盤モデルとして登場しつつある。
これらのモデルは、しばしば往復一貫性を欠いている。
本稿では,その一貫性を向上させるためにモデルをトレーニングする新しいフレームワークであるRound-Trip Reinforcement Learning(RTRL)を紹介する。
論文 参考訳(メタデータ) (2025-10-01T23:58:58Z) - Measuring LLM Code Generation Stability via Structural Entropy [4.812266013066678]
抽象構文木 (AST) 解析と組み合わせてプログラム領域に「構造エントロピーの概念」を拡張する。
i) 構造重なりの対称的有界指標であるJensen-Shannon分散と(ii) 高確率パターンの欠如を強調する構造的クロスエントロピー比の2つの相補的な方法で安定性を測定する。
Pass@k、BLEU、CodeBLEUとは異なり、私たちのメトリクスは参照なし、言語非依存、実行非依存です。
論文 参考訳(メタデータ) (2025-08-19T22:07:12Z) - Beyond Isolated Dots: Benchmarking Structured Table Construction as Deep Knowledge Extraction [80.88654868264645]
Arranged and Organized extract Benchmarkは、断片化された文書を理解するための大規模言語モデルの能力を評価するために設計された。
AOEには3つの異なるドメインにまたがる11のタスクが含まれており、さまざまな入力クエリに適したコンテキスト固有のスキーマを生成するモデルが必要である。
結果は、最も先進的なモデルでさえ、かなり苦労したことを示している。
論文 参考訳(メタデータ) (2025-07-22T06:37:51Z) - Effects of structure on reasoning in instance-level Self-Discover [0.0]
本稿では、Self-Discoverフレームワークのインスタンスレベルの適応であるiSelf-Discoverを紹介し、それを用いて動的に生成された構造化推論と非構造化推論との比較を行う。
最先端のオープンソースモデルを用いた多種多様なベンチマークによる実証的評価は、非構造化推論に対する一貫した優位性を支持している。
論文 参考訳(メタデータ) (2025-07-04T07:28:42Z) - SLOT: Structuring the Output of Large Language Models [5.683327173793259]
SLOT(Structured LLM Output Transformer)は,非構造化LCM出力を正確な構造化形式に変換するモデルに依存しない手法である。
この結果から,制約付き復号化による微調整Mistral-7Bモデルでは,ほぼ完全なスキーマ精度が得られた。
特に、Llama-3.2-1Bのようなコンパクトなモデルでさえ、はるかに大きなプロプライエタリなモデルの出力能力にマッチまたは超えることができる。
論文 参考訳(メタデータ) (2025-05-06T23:29:43Z) - EpiCoder: Encompassing Diversity and Complexity in Code Generation [66.43738008739555]
既存のコード生成方法はシードデータとしてコードスニペットを使用する。
階層的なコード機能を中心に展開する,新しい機能ツリーベースの合成フレームワークを提案する。
我々のフレームワークは、生成されたコードの複雑さを正確に制御し、関数レベルの操作からマルチファイルのシナリオまで幅広い機能を実現する。
論文 参考訳(メタデータ) (2025-01-08T18:58:15Z) - StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。
評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。
StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文 参考訳(メタデータ) (2024-12-23T22:08:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。