Fugu-MT 論文翻訳(概要): Generating Structured Outputs from Language Models: Benchmark and Studies

論文の概要: Generating Structured Outputs from Language Models: Benchmark and Studies

arxiv url: http://arxiv.org/abs/2501.10868v1
Date: Sat, 18 Jan 2025 20:26:00 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-22 19:37:19.178455
Title: Generating Structured Outputs from Language Models: Benchmark and Studies
Title（参考訳）: 言語モデルから構造化出力を生成する:ベンチマークと研究
Authors: Saibo Geng, Hudson Cooper, Michał Moskal, Samuel Jenkins, Julian Berman, Nathan Ranchin, Robert West, Eric Horvitz, Harsha Nori,
Abstract要約: 制約付き復号化は、世代間構造的出力を強制する分野において支配的な技術として出現している。本稿では,制約に順応した出力の生成効率,生成した出力の多様な品質のカバレッジという,3つの重要な領域にわたる制約付き復号手法を評価するための評価フレームワークを提案する。我々の研究は、制約付きデコードフレームワークを改善し、制約付きデコード構造生成を評価するための新しい標準を設定するための実用的な洞察を提供する。
参考スコア（独自算出の注目度）: 24.017253364927086
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reliably generating structured outputs has become a critical capability for modern language model (LM) applications. Constrained decoding has emerged as the dominant technology across sectors for enforcing structured outputs during generation. Despite its growing adoption, little has been done with the systematic evaluation of the behaviors and performance of constrained decoding. Constrained decoding frameworks have standardized around JSON Schema as a structured data format, with most uses guaranteeing constraint compliance given a schema. However, there is poor understanding of the effectiveness of the methods in practice. We present an evaluation framework to assess constrained decoding approaches across three critical dimensions: efficiency in generating constraint-compliant outputs, coverage of diverse constraint types, and quality of the generated outputs. To facilitate this evaluation, we introduce JSONSchemaBench, a benchmark for constrained decoding comprising 10K real-world JSON schemas that encompass a wide range of constraints with varying complexity. We pair the benchmark with the existing official JSON Schema Test Suite and evaluate six state-of-the-art constrained decoding frameworks, including Guidance, Outlines, Llamacpp, XGrammar, OpenAI, and Gemini. Through extensive experiments, we gain insights into the capabilities and limitations of constrained decoding on structured generation with real-world JSON schemas. Our work provides actionable insights for improving constrained decoding frameworks and structured generation tasks, setting a new standard for evaluating constrained decoding and structured generation. We release JSONSchemaBench at https://github.com/guidance-ai/jsonschemabench
Abstract（参考訳）: 構造化された出力を確実に生成することは、現代の言語モデル(LM)アプリケーションにとって重要な機能となっている。制約付き復号化は、世代間構造的出力を強制する分野において支配的な技術として出現している。採用が増えているにもかかわらず、制約付きデコーディングの動作と性能の体系的な評価はほとんど行われていない。制約付きデコーディングフレームワークは、JSON Schemaを構造化データフォーマットとして標準化した。しかし、実際に行われている手法の有効性についてはあまり理解されていない。本稿では,制約に準拠した出力を生成する際の効率,多様な制約型のカバレッジ,生成した出力の品質の3つの重要な側面にわたる制約付き復号手法を評価するための評価フレームワークを提案する。この評価を容易にするために、JSONSchemaBenchを紹介した。JSONSchemaBenchは、10Kの現実世界のJSONスキーマからなる制約付きデコーディングのベンチマークで、様々な複雑さを伴う幅広い制約を含む。ベンチマークを既存の公式JSON Schema Test Suiteと組み合わせて、Guidance、Outlines、Llamacpp、XGrammar、OpenAI、Geminiを含む6つの最先端の制約付きデコーディングフレームワークを評価します。広範な実験を通じて、実世界のJSONスキーマを用いた構造化世代における制約付きデコーディングの機能と制限に関する洞察を得る。我々の研究は、制約付きデコードフレームワークと構造化された生成タスクを改善するための実用的な洞察を提供し、制約付きデコードと構造化された生成を評価するための新しい標準を設定します。 https://github.com/guidance-ai/jsonschemabenchでJSONSchemaBenchをリリースしました。

関連論文リスト

Architecture-Aware Multi-Design Generation for Repository-Level Feature Addition [53.50448142467294]
RAIMは、リポジトリレベルの機能追加のための、多設計およびアーキテクチャ対応のフレームワークである。複数の多様な実装設計を生成することで、線形パッチから切り離される。 NoCode-bench Verifiedデータセットの実験では、RAIMが新しい最先端のパフォーマンスを確立することが示されている。
論文参考訳（メタデータ） (2026-03-02T12:50:40Z)
Thinking Before Constraining: A Unified Decoding Framework for Large Language Models [1.2468700211588883]
自然生成と構造生成の両方の利点を組み合わせた簡単なアプローチを提案する。提案手法は,構造化された出力の信頼性を確保しつつ,自然言語推論の表現力を維持する。
論文参考訳（メタデータ） (2026-01-12T13:25:28Z)
RL-Struct: A Lightweight Reinforcement Learning Framework for Reliable Structured Output in LLMs [0.08594140167290097]
大規模言語モデル(LLM)は、自然言語の生成と推論において顕著な能力を示した。自動化されたソフトウェアエコシステムへの統合は、しばしば"構造ギャップ"によって妨げられます。このギャップを埋めるための軽量で効率的な強化学習フレームワークを提案する。
論文参考訳（メタデータ） (2025-11-29T04:47:14Z)
STED and Consistency Scoring: A Framework for Evaluating LLM Structured Output Reliability [11.095198847819573]
大規模言語モデル(LLM)は、構造化データ生成のためにますます多くデプロイされている。 LLM生成した構造化出力の整合性の評価と改善のための総合的なフレームワークを提案する。
論文参考訳（メタデータ） (2025-11-27T02:49:52Z)
AI-assisted JSON Schema Creation and Mapping [0.0]
本稿では,大規模言語モデル(LLM)と決定論的手法を組み合わせて,ユーザによる自然言語入力に基づく生成,修正,スキーママッピングを実現するハイブリッドアプローチを提案する。この作業は、非専門家のための構造化データモデリングとデータ統合に対する障壁を著しく減らします。
論文参考訳（メタデータ） (2025-08-07T09:27:10Z)
MRG-Bench: Evaluating and Exploring the Requirements of Context for Repository-Level Code Generation [0.7342677574855649]
大規模言語モデルのより正確な評価を提供する新しいデータセットである textbfMRG-Bench を紹介する。我々は,大規模言語モデル,長期コンテキストモデル,RAG関連手法を含む実験を行う。その結果、ほとんどの手法は「ユーザ要求を理解することの難しさ」に悩まされており、割り当てられたタスクを正確に理解できないことがわかった。
論文参考訳（メタデータ） (2025-08-05T01:53:45Z)
Type-Constrained Code Generation with Language Models [51.03439021895432]
本稿では,型システムを利用してコード生成を誘導する型制約デコード手法を提案する。そこで本研究では,新しい接頭辞オートマトンと,在来型を探索する手法を開発し,LLM生成コードに適切な型付けを強制するための健全なアプローチを構築した。提案手法は,コード合成,翻訳,修復作業において,コンパイルエラーを半分以上削減し,機能的正しさを著しく向上させる。
論文参考訳（メタデータ） (2025-04-12T15:03:00Z)
WritingBench: A Comprehensive Benchmark for Generative Writing [87.48445972563631]
writeBenchは、6つのコア書き込みドメインと100の技術的記述を含む大規模言語モデル(LLM)を評価するために設計されたベンチマークである。本稿では、LCMがインスタンス固有の評価基準を動的に生成することを可能にするクエリ依存評価フレームワークを提案する。このフレームワークは、基準対応スコアリングのための微調整された批評家モデルによって補完され、スタイル、フォーマット、長さの評価を可能にする。
論文参考訳（メタデータ） (2025-03-07T08:56:20Z)
Learning to Generate Structured Output with Schema Reinforcement Learning [83.09230124049667]
本研究では,大規模言語モデル(LLM)の構造的生成能力について検討する。最新のLLMはまだ有効な文字列を生成するのに苦労している。我々のモデルでは、出力と下流の両方のタスクが大幅に改善されている。
論文参考訳（メタデータ） (2025-02-26T06:45:29Z)
EpiCoder: Encompassing Diversity and Complexity in Code Generation [49.170195362149386]
抽象構文木(AST)にヒントを得た新しい特徴木ベース合成フレームワークを提案する。コードの構文構造をキャプチャするASTとは異なり、私たちのフレームワークはコード要素間のセマンティックな関係をモデル化します。広く使われているベースモデルを微調整してEpiCoderシリーズを作成し、関数レベルとファイルレベルの両方で最先端のパフォーマンスを実現しました。
論文参考訳（メタデータ） (2025-01-08T18:58:15Z)
StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、構造化されたアウトプットを生成する能力に基づいて、大きな言語モデルを評価する新しいベンチマークである。 StructTestが一般的な推論能力のよいプロキシであることを示す。
論文参考訳（メタデータ） (2024-12-23T22:08:40Z)
LLM as a code generator in Agile Model Driven Development [1.12646803578849]
この研究は、これらの課題を克服するための実行可能な戦略としてモデル駆動開発(MDD)を擁護します。我々は GPT4 をコードジェネレータとして利用する Agile Model Driven Development (AMDD) アプローチを提案する。 GPT4自動生成機能を適用すると、JADEおよびPADEフレームワークと互換性のあるJavaとPythonコードが生成される。
論文参考訳（メタデータ） (2024-10-24T07:24:11Z)
Decoding at the Speed of Thought: Harnessing Parallel Decoding of Lexical Units for LLMs [57.27982780697922]
大規模言語モデルは、自然言語の理解と生成において例外的な能力を示した。しかし、それらの生成速度は、その復号過程の本質的にシーケンシャルな性質によって制限される。本稿では,データ駆動方式で実装された新しいデコーディング手法であるLexical Unit Decodingを紹介する。
論文参考訳（メタデータ） (2024-05-24T04:35:13Z)
COLLIE: Systematic Construction of Constrained Text Generation Tasks [33.300039566331876]
COLLIEは文法ベースのフレームワークで、多種多様な世代レベルのリッチで構成的な制約を仕様化することができる。本研究では,制約構造と生テキストコーパスが与えられたタスクインスタンスの自動抽出ツールを開発する。我々は、最先端の5つの言語モデルに対して体系的な実験を行い、その性能を分析し、欠点を明らかにする。
論文参考訳（メタデータ） (2023-07-17T17:48:51Z)
Grammar-Constrained Decoding for Structured NLP Tasks without Finetuning [27.59524153097858]
文法制約付き復号法(GCD)は、大言語モデル(LM)の生成を制御するために用いられる。 GCDは一般に構造化NLPタスクの統一フレームワークとして機能する。文法制約付きLMは、制約なしLMよりも大幅に優れるか、タスク固有の微調整モデルよりも優れていることを示す。
論文参考訳（メタデータ） (2023-05-23T11:54:37Z)
ICE-Score: Instructing Large Language Models to Evaluate Code [7.556444391696562]
コードアセスメントのための大規模言語モデルに基づく新しい評価指標であるtextttICE-Score を提案する。提案手法は,機能的正しさと人的嗜好との相関性に優れ,既存のアプローチの限界に対処する。以上の結果から,コード生成の最先端の指標を超越した結果が得られた。
論文参考訳（メタデータ） (2023-04-27T16:38:17Z)
ReCode: Robustness Evaluation of Code Generation Models [90.10436771217243]
コード生成モデルのための総合的ロバストネス評価ベンチマークであるReCodeを提案する。ドクストリング、関数と変数名、コード構文、コードフォーマットのコードに特化して、30以上の変換をカスタマイズします。ヒトのアノテータでは、摂動プロンプトの90%以上が本来のプロンプトの意味を変えていないことが確認された。
論文参考訳（メタデータ） (2022-12-20T14:11:31Z)
A Simple, Yet Effective Approach to Finding Biases in Code Generation [16.094062131137722]
この研究は、現在のコード生成システムが、彼らの大きな言語モデルバックボーンから受け継がれた望ましくないバイアスを示すことを示している。コーディング課題のモジュラー分解と解析を可能にする「影響ブロック」の概念を提案する。
論文参考訳（メタデータ） (2022-10-31T15:06:15Z)
COLD Decoding: Energy-based Constrained Text Generation with Langevin Dynamics [69.8062252611486]
コールドデコーディングは、既製の左から右の言語モデルに直接適用可能なフレキシブルなフレームワークである。制約付き生成タスクの実験は、自動評価と人的評価の両方の観点から、我々のアプローチの有効性を示している。
論文参考訳（メタデータ） (2022-02-23T18:59:27Z)
An Integer Linear Programming Framework for Mining Constraints from Data [81.60135973848125]
データから制約をマイニングするための一般的なフレームワークを提案する。特に、構造化された出力予測の推論を整数線形プログラミング(ILP)問題とみなす。提案手法は,9×9のスドクパズルの解法を学習し,基礎となるルールを提供することなく,例からツリー問題を最小限に分散させることが可能であることを示す。
論文参考訳（メタデータ） (2020-06-18T20:09:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。