論文の概要: Solving LLM Repetition Problem in Production: A Comprehensive Study of Multiple Solutions
- arxiv url: http://arxiv.org/abs/2512.04419v1
- Date: Thu, 04 Dec 2025 03:30:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:45.971604
- Title: Solving LLM Repetition Problem in Production: A Comprehensive Study of Multiple Solutions
- Title(参考訳): 生産におけるLCM繰り返し問題の解法:複数解の総合的研究
- Authors: Weiwei Wang, Weijie Zou, Jiyong Min,
- Abstract要約: 大規模言語モデル(LLM)は、適切な終了なしに繰り返しコンテンツを生成し、大幅な性能低下とシステム停止を引き起こします。
本稿では,実世界のバッチコード解釈タスクで発生する繰り返し問題に対する包括的調査と複数の実践的解決策を提案する。
- 参考スコア(独自算出の注目度): 2.085792950847639
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The repetition problem, where Large Language Models (LLMs) continuously generate repetitive content without proper termination, poses a critical challenge in production deployments, causing severe performance degradation and system stalling. This paper presents a comprehensive investigation and multiple practical solutions for the repetition problem encountered in real-world batch code interpretation tasks. We identify three distinct repetition patterns: (1) business rule generation repetition, (2) method call relationship analysis repetition, and (3) PlantUML diagram syntax generation repetition. Through rigorous theoretical analysis based on Markov models, we establish that the root cause lies in greedy decoding's inability to escape repetitive loops, exacerbated by self-reinforcement effects. Our comprehensive experimental evaluation demonstrates three viable solutions: (1) Beam Search decoding with early_stopping=True serves as a universal post-hoc mechanism that effectively resolves all three repetition patterns; (2) presence_penalty hyperparameter provides an effective solution specifically for BadCase 1; and (3) Direct Preference Optimization (DPO) fine-tuning offers a universal model-level solution for all three BadCases. The primary value of this work lies in combining first-hand production experience with extensive experimental validation. Our main contributions include systematic theoretical analysis of repetition mechanisms, comprehensive evaluation of multiple solutions with task-specific applicability mapping, identification of early_stopping as the critical parameter for Beam Search effectiveness, and practical production-ready solutions validated in real deployment environments.
- Abstract(参考訳): LLM(Large Language Models)が適切な終了なしに繰り返しコンテンツを生成するという繰り返し問題は、運用運用において重大な課題となり、パフォーマンスの悪化とシステム停止を引き起こします。
本稿では,実世界のバッチコード解釈タスクで発生する繰り返し問題に対する包括的調査と複数の実践的解決策を提案する。
我々は,(1)ビジネスルール生成の繰り返し,(2)メソッドコール関係解析の反復,(3)プラントUML図の構文生成の繰り返しの3つの異なる繰り返しパターンを識別する。
マルコフモデルに基づく厳密な理論的解析により、根本原因は、自己強化効果によって悪化する反復ループから逃れることができない欲求的復号化にあることが確かめられる。
包括的実験評価では,(1)アーリー_stopping=Trueを用いたビームサーチデコーディングは,3つの繰り返しパターンを効果的に解決する普遍的なポストホック機構として機能し,(2)プレゼンス_penaltyハイパーパラメータはBadCase 1に特化して有効なソリューションであり,(3)DPO(Direct Preference Optimization)ファインタニングは3つのBadCaseに対して普遍的なモデルレベルのソリューションを提供する。
この研究の主な価値は、実運用経験と広範な実験的な検証を組み合わせることである。
本研究の主な貢献は,繰り返し機構の体系的理論的解析,タスク固有の適用可能性マッピングを用いた複数のソリューションの包括的評価,ビーム探索の重要パラメータとしての早期探索の同定,実運用環境で検証された実用的生産対応ソリューションなどである。
関連論文リスト
- SolverLLM: Leveraging Test-Time Scaling for Optimization Problem via LLM-Guided Search [58.116954449750544]
多様な最適化問題を解決するために,テスト時間スケーリングを活用したトレーニング不要のフレームワークを導入する。
直接的に解くのではなく、数学的定式化を生成し、新しいモンテカルロ木探索戦略によって導かれる解法対応のコードに変換する。
論文 参考訳(メタデータ) (2025-10-19T16:21:19Z) - Learning to Refine: Self-Refinement of Parallel Reasoning in LLMs [102.48588475875749]
本稿では,新しい並列テスト時間スケーリングフレームワークであるGenerative Self-Refinement (GSR)を紹介する。
GSRは一連の候補応答を並列に生成し、その後自己精製を行い、新しい優れた解を合成する。
提案手法は,5つの数学ベンチマークにおいて,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-08-27T06:51:48Z) - RL for Reasoning by Adaptively Revealing Rationales [36.50924054394857]
監督された微調整(SFT)は密度の高い地下構造ラベルに依存しており、シーケンスの長さが大きくなるにつれてコストが増大する。
AdaBack(アダプティブ・バックトラック)は,学習中の目標出力の部分的なプレフィックスのみを明らかにする,サンプルごとのカリキュラム学習アルゴリズムである。
部分解に対する適応的なカリキュラムは、そうでなければ難解な問題を確実に解決することを示します。
論文 参考訳(メタデータ) (2025-06-22T17:46:14Z) - SPARE: Single-Pass Annotation with Reference-Guided Evaluation for Automatic Process Supervision and Reward Modelling [58.05959902776133]
私たちはSingle-Passを紹介します。
Reference-Guided Evaluation (SPARE)は、効率的なステップごとのアノテーションを可能にする新しい構造化フレームワークである。
数学的推論(GSM8K, MATH)、マルチホップ質問応答(MuSiQue-Ans)、空間推論(SpaRP)にまたがる4つの多様なデータセットにおけるSPAREの有効性を実証する。
ProcessBenchでは、SPAREがデータ効率のよいアウト・オブ・ディストリビューションの一般化を実証し、トレーニングサンプルの$sim$16%しか使用していない。
論文 参考訳(メタデータ) (2025-06-18T14:37:59Z) - On the Effect of Sampling Diversity in Scaling LLM Inference [57.31028064284527]
大規模言語モデル(LLM)のスケーリング推論は、パフォーマンス向上の鍵となる。
解の精度と応答の有意な多様性の関係から,スケーリング推論における急激な多様性の効果を体系的に研究した。
また,Best-of-N$選択後の有意義な多様なプロンプトから生成した応答は,定常的なプロンプトから生成した応答よりも有意に低い値を示した。
論文 参考訳(メタデータ) (2025-02-16T07:37:58Z) - Vision-Language Models Can Self-Improve Reasoning via Reflection [20.196406628954303]
CoT(Chain-of-Thought)は,大規模言語モデル(LLM)の推論能力の向上を実証した。
本稿では,自己学習フレームワークR3Vを提案する。このフレームワークは,CoTレーショナル上でのリフレクションにより,モデルの視覚言語推論を反復的に強化する。
提案手法は, 生成した解に対する自己回帰をサポートし, テスト時間計算による性能向上を図っている。
論文 参考訳(メタデータ) (2024-10-30T14:45:00Z) - MAgICoRe: Multi-Agent, Iterative, Coarse-to-Fine Refinement for Reasoning [80.15393178083607]
大規模言語モデル(LLM)推論は、テストタイムアグリゲーション戦略、すなわち、複数のサンプルを生成し、生成されたサンプル間で投票することで改善することができる。
Refinementは、LLM生成したフィードバックを使ってソリューションの品質を改善する方法を提供する。
本稿では,問題の難易度を,難易度や難易度に分類することで,過度な改善を回避するMagICoReを提案する。
論文 参考訳(メタデータ) (2024-09-18T17:12:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。