論文の概要: RL-Struct: A Lightweight Reinforcement Learning Framework for Reliable Structured Output in LLMs
- arxiv url: http://arxiv.org/abs/2512.00319v1
- Date: Sat, 29 Nov 2025 04:47:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.167243
- Title: RL-Struct: A Lightweight Reinforcement Learning Framework for Reliable Structured Output in LLMs
- Title(参考訳): LLMにおける信頼性構造出力のための軽量強化学習フレームワークRL-Struct
- Authors: Ruike Hu, Shulei Wu,
- Abstract要約: 大規模言語モデル(LLM)は、自然言語の生成と推論において顕著な能力を示した。
自動化されたソフトウェアエコシステムへの統合は、しばしば"構造ギャップ"によって妨げられます。
このギャップを埋めるための軽量で効率的な強化学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.08594140167290097
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable capabilities in natural language generation and reasoning. However, their integration into automated software ecosystems is often hindered by the "Structure Gap" - the inherent tension between the probabilistic nature of token generation and the deterministic requirements of structured data formats (e.g., JSON, XML). Traditional Supervised Fine-Tuning (SFT) often fails to enforce strict syntactic constraints, leading to "hallucinated" keys or malformed structures, while constrained decoding methods impose significant inference latency. In this paper, we propose a lightweight, efficient Reinforcement Learning (RL) framework to bridge this gap. We introduce a novel Multi-dimensional Reward Function that decomposes the structured output task into a hierarchy of constraints: structural integrity, format correctness, content accuracy, and validity. Leveraging Gradient Regularized Policy Optimization (GRPO), we enable the model to internalize these constraints without the need for a separate critic network, reducing peak VRAM usage by 40% compared to PPO. We validate our approach on multiple tasks, including complex recipe generation and structured math reasoning (GSM8K-JSON). Experimental results demonstrate that our method achieves 89.7% structural accuracy and 92.1% JSON validity, significantly outperforming both zero-shot baselines (e.g., GPT-3.5) and SFT on larger models like LLaMA-3-8B. Furthermore, we provide a detailed analysis of training dynamics, revealing a distinct self-paced curriculum where the model sequentially acquires syntactic proficiency before semantic accuracy. Our model is publicly available at https://huggingface.co/Freakz3z/Qwen-JSON.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語の生成と推論において顕著な能力を示した。
しかしながら、それらの自動化されたソフトウェアエコシステムへの統合は、トークン生成の確率的性質と構造化データフォーマット(JSON、XMLなど)の決定論的要件との間の固有の緊張関係である"構造ギャップ"によってしばしば妨げられます。
従来のsupervised Fine-Tuning (SFT) は厳密な構文制約を強制できず、鍵や不正な構造が引き起こされる。
本稿では,このギャップを埋める軽量で効率的な強化学習(RL)フレームワークを提案する。
本稿では,構造的整合性,フォーマットの正確性,内容の正確性,妥当性といった制約の階層に構造化された出力タスクを分解する,新しい多次元リワード関数を提案する。
グラディエント正規化政策最適化(GRPO)を活用することで、異なる批判ネットワークを必要とせず、モデルがこれらの制約を内部化することが可能となり、PPOと比較してピークVRAM使用率が40%削減される。
我々は、複雑なレシピ生成や構造化数学推論(GSM8K-JSON)を含む複数のタスクに対するアプローチを検証する。
実験の結果,LLaMA-3-8Bのような大型モデルでは,ゼロショットベースライン(例, GPT-3.5)とSFTの両モデルにおいて,89.7%の精度,92.1%のJSON妥当性が得られた。
さらに,モデルが意味論的正確性の前に構文的習熟度を逐次取得する,独特なセルフペースのカリキュラムについて,トレーニングダイナミクスの詳細な解析を行った。
私たちのモデルはhttps://huggingface.co/Freakz3z/Qwen-JSONで公開されています。
関連論文リスト
- Structured Uncertainty guided Clarification for LLM Agents [126.26213027785813]
LLMエージェントは、ツールコール機能を備えた大きな言語モデルを拡張するが、曖昧なユーザ命令は、しばしば誤った呼び出しやタスクの失敗につながる。
本稿では,ツールコールパラメータに対する構造的不確かさの定式化,完全情報の期待値(EVPI)を目標としたPOMDPのモデル化,冗長性防止のためのアスペクトベースコストモデルを提案する。
我々のSAGE-Agentは、この構造化された不確実性を活用し、より優れた効率を達成するために、曖昧なタスクのカバレッジを7~39%増加させ、明確な質問を1.5~2.7$times$に減らした。
論文 参考訳(メタデータ) (2025-11-11T21:50:44Z) - Deep Hierarchical Learning with Nested Subspace Networks [53.71337604556311]
大規模ニューラルネットワークのためのNested Subspace Networks (NSN)を提案する。
NSNは、単一のモデルを連続した計算予算の範囲で動的かつきめ細かな調整を可能にする。
我々は,NSNを訓練済みのLLMに外科的に適用し,スムーズで予測可能な計算性能フロンティアを解き放つことができることを示した。
論文 参考訳(メタデータ) (2025-09-22T15:13:14Z) - HEFT: A Coarse-to-Fine Hierarchy for Enhancing the Efficiency and Accuracy of Language Model Reasoning [0.0]
HEFTは、2つの異なるPEFT法を粗い方法で構成する新しい階層的適応戦略である。
HEFT戦略を用いた3つのエポックのみを微調整したモデルでは,20エポックで訓練したモデルの性能を上回る精度が85.17%に達する。
論文 参考訳(メタデータ) (2025-09-11T19:06:46Z) - SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。
トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文 参考訳(メタデータ) (2025-08-07T03:50:48Z) - Enhancing Spatial Reasoning in Vision-Language Models via Chain-of-Thought Prompting and Reinforcement Learning [0.42855555838080844]
本研究では,視覚言語モデル(VLM)の空間的推論能力について,Chain-of-Thoughtプロンプトと強化学習を通して検討した。
モデルが解答の前に推論ステップを生成する単純なCoT形式は、モデルの本来の性能を損なう可能性がある。
対照的に、シーングラフ(SceneGraph CoT)に基づく構造化マルチステージプロンプトは空間推論の精度を大幅に向上させる。
論文 参考訳(メタデータ) (2025-07-06T10:51:12Z) - SLOT: Structuring the Output of Large Language Models [5.683327173793259]
SLOT(Structured LLM Output Transformer)は,非構造化LCM出力を正確な構造化形式に変換するモデルに依存しない手法である。
この結果から,制約付き復号化による微調整Mistral-7Bモデルでは,ほぼ完全なスキーマ精度が得られた。
特に、Llama-3.2-1Bのようなコンパクトなモデルでさえ、はるかに大きなプロプライエタリなモデルの出力能力にマッチまたは超えることができる。
論文 参考訳(メタデータ) (2025-05-06T23:29:43Z) - Pushing the boundary on Natural Language Inference [49.15148871877941]
自然言語推論(NLI)は、ファクトチェック、質問応答、情報検索における自然言語理解の中心的なタスクである。
その重要性にもかかわらず、現在のNLIシステムは、アーティファクトやバイアス、推論、実世界の適用性を制限した学習に大きく依存している。
この作業は、品質や実世界の適用性を犠牲にすることなく、堅牢なNLIシステムを構築するためのフレームワークを提供する。
論文 参考訳(メタデータ) (2025-04-25T14:20:57Z) - Elucidating the Design Space of Multimodal Protein Language Models [69.3650883370033]
マルチモーダルタンパク質言語モデル(PLM)は、シーケンスとトークンに基づく構造情報を統合する。
本稿では,マルチモーダルPLMの設計空間を体系的に解明し,その限界を克服する。
我々の進歩はよりきめ細かな監督にアプローチし、トークンベースのマルチモーダルPLMが堅牢な構造モデリングを実現することを実証する。
論文 参考訳(メタデータ) (2025-04-15T17:59:43Z) - Unlock the Correlation between Supervised Fine-Tuning and Reinforcement Learning in Training Code Large Language Models [12.656574142412484]
本研究では,教師付き微調整と強化学習の相関関係の解明を試みる。
SFTの一般化には原子関数と合成関数の両方が不可欠である。
論文 参考訳(メタデータ) (2024-06-14T03:39:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。