論文の概要: Know When To Fold 'Em: Token-Efficient LLM Synthetic Data Generation via Multi-Stage In-Flight Rejection
- arxiv url: http://arxiv.org/abs/2605.14062v1
- Date: Wed, 13 May 2026 19:35:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.480795
- Title: Know When To Fold 'Em: Token-Efficient LLM Synthetic Data Generation via Multi-Stage In-Flight Rejection
- Title(参考訳): マルチステージイン・フライ・リジェクションによる高効率LCM合成データ生成
- Authors: Anjir Ahmed Chowdhury, Syed Zawad, Feng Yan,
- Abstract要約: Multi-Stage In-Flight Rejection (MSIFR) は軽量でトレーニング不要なフレームワークで、完成前に低品質な世代軌道を終了する。
飛行中の拒否を逐次決定プロセスとして定式化し、非自明な破棄ポリシーが期待されるトークン消費を減少させることを示す。
- 参考スコア(独自算出の注目度): 3.1572670872557196
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While synthetic data generation with large language models (LLMs) is widely used in post-training pipelines, existing approaches typically generate full outputs before applying quality filters, leading to substantial token waste on samples that are ultimately discarded. To address this, we propose Multi-Stage In-Flight Rejection (MSIFR), a lightweight, training-free framework that detects and terminates low-quality generation trajectories at intermediate checkpoints before they reach full completion. MSIFR decomposes the generation process into sequential stages and applies fast rule-based validators to identify arithmetic inconsistencies, hallucination patterns, and formatting violations, enabling early rejection of faulty samples. We formalize in-flight rejection as a sequential decision process and show that any non-trivial discard policy reduces expected token consumption, with stage-wise savings increasing when rejection occurs earlier in the generation pipeline. We further demonstrate that conditional utility estimates form a martingale, ensuring that early, in-flight rejection does not bias the expected utility of retained samples. Across five instruction-tuned models and seven reasoning benchmarks, MSIFR reduces token consumption by 11%-77% as a standalone method, and up to 78.2% when combined with early-exit methods, while preserving or improving evaluation accuracy. These results confirm that MSIFR provides a practical mechanism for improving the efficiency of LLM-based synthetic data generation without additional training or architectural changes.
- Abstract(参考訳): 大規模言語モデル(LLM)を用いた合成データ生成は、訓練後のパイプラインで広く使われているが、既存のアプローチは通常、品質フィルタを適用する前に完全な出力を生成し、最終的に破棄されるサンプルにかなりのトークンの無駄をもたらす。
そこで本研究では,マルチステージ・イン・フライ・リジェクション(Multi-Stage In-Flight Rejection, MSIFR)を提案する。
MSIFRは、生成プロセスを逐次段階に分解し、高速なルールベースのバリデータを適用して、演算の不整合、幻覚パターン、フォーマット違反を識別し、欠陥サンプルの早期拒絶を可能にする。
我々は、飛行中の拒絶を逐次決定プロセスとして定式化し、非自明な破棄ポリシーが期待されるトークン消費を減少させることを示す。
さらに、条件付き効用推定がマーチンゲールを形成し、早期の飛行中の拒絶が保持サンプルの期待効用に偏らないことを保証する。
5つの命令調整されたモデルと7つの推論ベンチマークで、MSIFRはトークンの消費を11%-77%削減し、早期終了法と組み合わせて78.2%まで削減し、評価精度を保留または改善した。
これらの結果から, MSIFRは, 付加的なトレーニングやアーキテクチャ変更を伴わずに, LLMベースの合成データ生成の効率を向上させるための実用的なメカニズムを提供することを確認した。
関連論文リスト
- LiveFMBench: Unveiling the Power and Limits of Agentic Workflows in Specification Generation [75.05397479715576]
大規模言語モデル(LLM)とエージェントは有望な進歩を示しているが、その真の能力と失敗モードは未だ不明である。
CプログラムのためのLCMおよびエージェントベースの形式仕様生成に関する、最初の体系的および汚染に配慮した研究を提案する。
論文 参考訳(メタデータ) (2026-05-02T11:31:33Z) - Constrained Adaptive Rejection Sampling [27.579645342312674]
言語モデル(LM)は、生成した出力が厳密な意味的制約や構文的制約を満たす必要があるアプリケーションでますます使われている。
既存の制約付き生成へのアプローチは、スペクトルに沿って低下する: 欲求的制約付き復号法は、復号時の有効性を強制するが、LMの分布を歪ませる。
本稿では、分布歪みを伴わないRSの試料効率を厳密に改善するアプローチである、適応型サンプリング(CARS)を提案する。
論文 参考訳(メタデータ) (2025-10-02T11:17:26Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - Distributional Diffusion Models with Scoring Rules [83.38210785728994]
拡散モデルは高品質な合成データを生成する。
高品質な出力を生成するには、多くの離散化ステップが必要です。
クリーンデータサンプルの後部エム分布を学習し,サンプル生成を実現することを提案する。
論文 参考訳(メタデータ) (2025-02-04T16:59:03Z) - An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。
我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。
我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文 参考訳(メタデータ) (2024-11-08T12:08:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。