論文の概要: Think Inside the JSON: Reinforcement Strategy for Strict LLM Schema Adherence
- arxiv url: http://arxiv.org/abs/2502.14905v1
- Date: Tue, 18 Feb 2025 16:44:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 16:11:45.417725
- Title: Think Inside the JSON: Reinforcement Strategy for Strict LLM Schema Adherence
- Title(参考訳): JSONの内部を考えてみましょう - 厳密なLLMスキーマアヒーレンスのための強化戦略
- Authors: Bhavik Agarwal, Ishan Joshi, Viktoria Rojkova,
- Abstract要約: 本稿では,大規模言語モデル(LLM)生成における厳密なスキーマ順守を推論能力を活用することによる課題に対処する。
我々のアプローチは、新しいパイプラインを通して1.5Bパラメータモデルの構造的推論スキルを訓練する。
我々はThinkJSONのアプローチを、オリジナルのDeepSeek R1 (671B)、DeepSeek R1 (Qwen-1.5BとQwen-7B)、Gemini 2.0 Flash (70B)の蒸留版と比較する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In this paper, we address the challenge of enforcing strict schema adherence in large language model (LLM) generation by leveraging LLM reasoning capabilities. Building on the DeepSeek R1 reinforcement learning framework, our approach trains structured reasoning skills of a 1.5B parameter model through a novel pipeline that combines synthetic reasoning dataset construction with custom reward functions under Group Relative Policy Optimization (GRPO). Specifically, we first perform R1 reinforcement learning on a 20K sample unstructured-to-structured dataset, mirroring the original DeepSeek R1 methods, to establish core reasoning abilities. Subsequently, we performed supervised fine-tuning on a separate 10K reasoning sample dataset, focusing on refining schema adherence for downstream tasks. Despite the relatively modest training scope, requiring approximately 20 hours on an 8xH100 GPU cluster for GRPO training and 3 hours on 1xA100 for SFT, our model demonstrates robust performance in enforcing schema consistency. We compare our ThinkJSON approach against the original DeepSeek R1 (671B), distilled versions of DeepSeek R1 (Qwen-1.5B and Qwen-7B), and Gemini 2.0 Flash (70B), showcasing its effectiveness in real-world applications. Our results underscore the practical utility of a resource-efficient framework for schema-constrained text generation.
- Abstract(参考訳): 本稿では,LLM推論機能を活用して,大規模言語モデル(LLM)生成において厳密なスキーマアテンデンスを強制することの課題に対処する。
提案手法は,DeepSeek R1強化学習フレームワーク上に構築され,グループ相対ポリシー最適化(GRPO)の下で,合成推論データセット構築とカスタム報酬関数を組み合わせた新しいパイプラインを通じて1.5Bパラメータモデルの推論スキルを訓練する。
具体的には、20Kサンプルの非構造化データセット上でR1強化学習を行い、元のDeepSeek R1手法を反映し、コア推論能力を確立する。
その後、下流タスクのスキーマアテンデンスを改良することに焦点を当て、別個の10K推論サンプルデータセットで教師付き微調整を行った。
比較的控えめなトレーニング範囲にもかかわらず、GRPOトレーニングに8xH100 GPUクラスタで約20時間、SFTに1xA100で3時間を要するにもかかわらず、我々のモデルはスキーマ一貫性を強制する上で堅牢なパフォーマンスを示している。
我々は、ThinkJSONのアプローチを、オリジナルのDeepSeek R1(671B)、DeepSeek R1(Qwen-1.5BとQwen-7B)の蒸留版、Gemini 2.0 Flash(70B)と比較し、現実世界のアプリケーションでの有効性を示している。
本結果は,スキーマ制約付きテキスト生成のための資源効率の高いフレームワークの実用性を評価するものである。
関連論文リスト
- Zeroth-order Informed Fine-Tuning for Diffusion Model: A Recursive Likelihood Ratio Optimizer [9.153197757307762]
確率拡散モデル(DM)は視覚生成のための強力なフレームワークである。
DMを効率的に調整する方法は重要な課題である。
本稿では,DMのための第0次情報調整パラダイムであるRecursive Likelihood Ratio (RLR)を提案する。
論文 参考訳(メタデータ) (2025-02-02T03:00:26Z) - Efficient Neural Theorem Proving via Fine-grained Proof Structure Analysis [50.020850767257095]
本稿では,より優れたサンプル効率を有する定理証明手法であるProofAugを提案する。
本手法は,オープンソースのDeepseek-math-7bベースモデルとIsabelle証明アシスタントを用いて,miniF2F-testベンチマークで検証した。
論文 参考訳(メタデータ) (2025-01-30T12:37:06Z) - Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning [147.16121855209246]
第一世代の推論モデルであるDeepSeek-R1-ZeroとDeepSeek-R1を紹介します。
DeepSeek-R1-Zeroは大規模な強化学習を通じて訓練されている。
DeepSeek-R1は、RLの前にマルチステージトレーニングとコールドスタートデータを組み込んでいる。
論文 参考訳(メタデータ) (2025-01-22T15:19:35Z) - Deep Companion Learning: Enhancing Generalization Through Historical Consistency [35.5237083057451]
本稿では,不整合モデル予測をペナライズすることによって一般化を促進するディープニューラルネットワーク(DNN)の新たなトレーニング手法を提案する。
我々は、新しい入力の予測を提供するために、以前のバージョンのモデルを用いて、ディープコンパニオンモデル(DCM)を訓練する。
このコンパニオンモデルは、データ内の有意義な潜在意味構造を解読し、ターゲットの監視を提供する。
論文 参考訳(メタデータ) (2024-07-26T15:31:13Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - Interpolation for Robust Learning: Data Augmentation on Wasserstein
Geodesics [38.81209454516577]
そこで本研究では,学習データ分布のカテゴリを通じて,モデルの性能に応じたロバスト性について研究し,促進することを提案する。
具体的には、人口分布を接続する測地線上の最悪のワッサーシュタインバリセンタを見つけることにより、データを増強する。
サブポピュレーション分布を接続する連続測地路上でのスムーズな性能のモデルを正規化する。
論文 参考訳(メタデータ) (2023-02-04T04:52:22Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - LaPraDoR: Unsupervised Pretrained Dense Retriever for Zero-Shot Text
Retrieval [55.097573036580066]
実験結果から,LaPraDoRは教師付き高密度検索モデルと比較して最先端の性能が得られることがわかった。
再ランクと比較すると,1ミリ秒 (22.5倍高速) でレキシコン強化手法を動作させることができるが,性能は良好である。
論文 参考訳(メタデータ) (2022-03-11T18:53:12Z) - SPLADE v2: Sparse Lexical and Expansion Model for Information Retrieval [11.38022203865326]
SPLADEモデルは、最先端の高密度かつスパースなアプローチに関して、高度にスパースな表現と競争結果を提供する。
我々は、プール機構を変更し、文書拡張のみに基づいてモデルをベンチマークし、蒸留で訓練されたモデルを導入する。
全体として、SPLADEはTREC DL 2019のNDCG@10で9ドル以上のゲインで大幅に改善され、BEIRベンチマークで最先端の結果が得られた。
論文 参考訳(メタデータ) (2021-09-21T10:43:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。