論文の概要: Decoupling Task-Solving and Output Formatting in LLM Generation
- arxiv url: http://arxiv.org/abs/2510.03595v1
- Date: Sat, 04 Oct 2025 00:52:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.140249
- Title: Decoupling Task-Solving and Output Formatting in LLM Generation
- Title(参考訳): LLM生成におけるタスクソルビングと出力フォーマッティングの分離
- Authors: Haikang Deng, Po-Nien Kung, Nanyun Peng,
- Abstract要約: Deco-Gは、タスク解決からフォーマットのアテンデンスを明確に分離するデコードフレームワークである。
Deco-Gは、分離されたトラクタブル確率モデル(TPM)でフォーマットコンプライアンスを処理する
Deco-Gの有効性を,多種多様なフォーマット要求を伴う多種多様なタスクで実証する。
- 参考スコア(独自算出の注目度): 44.40087140333511
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly adept at following instructions containing task descriptions to solve complex problems, such as mathematical reasoning and automatic evaluation (LLM-as-a-Judge). However, as prompts grow more complex, models often struggle to adhere to all instructions. This difficulty is especially common when instructive prompts intertwine reasoning directives -- specifying what the model should solve -- with rigid formatting requirements that dictate how the solution must be presented. The entanglement creates competing goals for the model, suggesting that more explicit separation of these two aspects could lead to improved performance. To this front, we introduce Deco-G, a decoding framework that explicitly decouples format adherence from task solving. Deco-G handles format compliance with a separate tractable probabilistic model (TPM), while prompts LLMs with only task instructions. At each decoding step, Deco-G combines next token probabilities from the LLM with the TPM calculated format compliance likelihood to form the output probability. To make this approach both practical and scalable for modern instruction-tuned LLMs, we introduce three key innovations: instruction-aware distillation, a flexible trie-building algorithm, and HMM state pruning for computational efficiency. We demonstrate the effectiveness of Deco-G across a wide range of tasks with diverse format requirements, including mathematical reasoning, LLM-as-a-judge, and event argument extraction. Overall, our approach yields 1.0% to 6.0% relative gain over regular prompting practice with guaranteed format compliance.
- Abstract(参考訳): 大規模言語モデル(LLM)は、数学的推論や自動評価(LLM-as-a-Judge)といった複雑な問題を解くためのタスク記述を含む命令に適応する傾向にある。
しかしながら、プロンプトがより複雑になるにつれて、モデルはしばしば全ての命令に従うのに苦労する。
この難しさは、インストラクティブがインタートウィン推論指示 -- モデルが何を解決するべきかを指定する -- を、どのようにソリューションを提示するかを規定する厳格なフォーマット要件によって促す場合、特に一般的である。
この絡み合いはモデルの競合する目標を生み出し、これらの2つの側面のより明確な分離によってパフォーマンスが向上する可能性があることを示唆している。
本稿では,デコードフレームワークであるDeco-Gを紹介する。
Deco-Gは、個別のトラクタブル確率モデル(TPM)でフォーマットコンプライアンスを処理し、タスク命令のみでLLMをプロンプトする。
各復号ステップにおいて、Deco-G は LLM からの次のトークン確率と TPM 計算フォーマット適合確率を組合せて出力確率を形成する。
提案手法は,命令認識蒸留,フレキシブルトリエ構築アルゴリズム,計算効率向上のためのHMM状態プルーニングという3つの重要な革新をもたらす。
本稿では, 数学的推論, LLM-as-a-judge, イベント引数抽出など, 多様な形式要件を持つ多種多様なタスクを対象としたDeco-Gの有効性を示す。
提案手法は,形式順守が保証された定期的なプロンプトよりも1.0%から6.0%の相対的な利得が得られる。
関連論文リスト
- Mixture of Reasonings: Teach Large Language Models to Reason with Adaptive Strategies [6.7519234849348075]
推論の混合は、様々な推論戦略を大きな言語モデルに組み込む。
MoR150はCoTプロンプトで0.730(2.2%改善)、ベースラインで0.734(13.5%改善)を達成した。
論文 参考訳(メタデータ) (2025-07-01T09:39:04Z) - SPARE: Single-Pass Annotation with Reference-Guided Evaluation for Automatic Process Supervision and Reward Modelling [58.05959902776133]
私たちはSingle-Passを紹介します。
Reference-Guided Evaluation (SPARE)は、効率的なステップごとのアノテーションを可能にする新しい構造化フレームワークである。
数学的推論(GSM8K, MATH)、マルチホップ質問応答(MuSiQue-Ans)、空間推論(SpaRP)にまたがる4つの多様なデータセットにおけるSPAREの有効性を実証する。
ProcessBenchでは、SPAREがデータ効率のよいアウト・オブ・ディストリビューションの一般化を実証し、トレーニングサンプルの$sim$16%しか使用していない。
論文 参考訳(メタデータ) (2025-06-18T14:37:59Z) - Self-Steering Language Models [113.96916935955842]
DisCIPL は "self-steering" 言語モデル (LM) の手法である。
DisCIPLは、Followerモデルの集団によって実行されるタスク固有の推論プログラムを生成する。
我々の研究は、高度に並列化されたモンテカルロ推論戦略の設計空間を開く。
論文 参考訳(メタデータ) (2025-04-09T17:54:22Z) - Improving Consistency in Large Language Models through Chain of Guidance [9.040736633675136]
Chain of Guidance (CoG)は、大規模言語モデル(LLM)から高度に一貫した出力を生成する多段階プロンプト技術である。
我々は、一貫した入出力ペアからなる合成データセットを用いて、一貫した正しい出力を生成する。
我々の微調整モデルは、ベースモデルに比べて2倍以上の一貫性があり、微調整プロセスで使用されていないデータセットに対して一貫した出力を生成することにより、強力な一般化能力を示す。
論文 参考訳(メタデータ) (2025-02-21T20:41:37Z) - Gap-Filling Prompting Enhances Code-Assisted Mathematical Reasoning [0.0]
パターン・オブ・シント(CoT)とプログラム・オブ・シント(PoT)ファインチューニング(PoT)は、LPMの知識を小さな言語モデル(SLM)に転送する一般的な方法である。
本稿では,SLMの問題解決プロセスを強化するために,新たな2段階のプロンプト戦略であるGap-Filling Prompting(GFP)を紹介する。
論文 参考訳(メタデータ) (2024-11-08T08:52:59Z) - Can Large Language Models Understand Real-World Complex Instructions? [54.86632921036983]
大型言語モデル(LLM)は人間の指示を理解することができるが、複雑な命令には耐えられない。
既存のベンチマークでは、LLMが複雑な命令を理解する能力を評価するには不十分である。
複雑な命令を体系的に追従するLSMの能力を評価するためのベンチマークであるCellOを提案する。
論文 参考訳(メタデータ) (2023-09-17T04:18:39Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。