論文の概要: Valid Stopping for LLM Generation via Empirical Dynamic Formal Lift
- arxiv url: http://arxiv.org/abs/2510.06478v1
- Date: Tue, 07 Oct 2025 21:28:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.209774
- Title: Valid Stopping for LLM Generation via Empirical Dynamic Formal Lift
- Title(参考訳): 経験的ダイナミックフォーマルリフティングによるLCM生成の正当性停止
- Authors: Sanjeda Akter, Ibne Farabi Shihab, Anuj Sharma,
- Abstract要約: シーケンシャルEDFLは、シーケンシャルベースラインに対して22~28%生成を減少させる。
EDFLは第1段階のフィルタとして機能し、検証負荷を83%削減する。
- 参考スコア(独自算出の注目度): 6.908972852063454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Sequential-EDFL (Empirical Dynamic Formal Lift), applying anytime-valid sequential testing to language model generation stopping. Our approach tracks information lift -- the log-likelihood ratio between full models and deliberately weakened "skeleton" baselines -- using self-normalized empirical-Bernstein e-processes that provide formal delta-level error control regardless of stopping time. We handle unknown centering through online mean estimation, combine multiple parameters via mixture e-processes, and support adaptive resets under distributional drift. On six benchmarks, Sequential-EDFL reduces generation by 22-28% vs. sequential baselines while maintaining delta-level control with 12% computational overhead. We introduce automated skeletons (distilled submodels, randomized logits) and show robustness across skeleton families. Composing EDFL with a lightweight correctness gate (sentence boundaries + verifier) improves end-task correctness while preserving anytime-valid guarantees by only delaying stopping. Our certificates control information sufficiency, not factual correctness -- 10.9% of stopped sequences remain incorrect even with the gate (13.2-22.7% without it). EDFL serves as a first-stage filter reducing verification burden by 83%, not as a standalone solution for safety-critical domains.
- Abstract(参考訳): 本稿では,言語モデル生成停止に任意の有意なシーケンシャルテストを適用したSequential-EDFL(Empirical Dynamic Formal Lift)を提案する。
我々のアプローチは、完全なモデルと故意に弱まった「骨格」ベースライン間のログライクな比率である情報リフトを、停止時間に関係なく正式なデルタレベルのエラー制御を提供する自己正規化された経験的バーンスタインのeプロセスを用いて追跡する。
オンライン平均推定による未知中心の処理、混合電子プロセスによる複数のパラメータの組み合わせ、分散ドリフト下での適応リセットのサポート。
6つのベンチマークで、Sequential-EDFLは12%の計算オーバーヘッドでデルタレベルの制御を維持しながら、生成を22~28%削減する。
自動骨格 (蒸留サブモデル, ランダム化ロジット) を導入し, 骨格群間の堅牢性を示す。
EDFLを軽量な正当性ゲート(文境界+検証器)で構成することで、停止のみを遅らせることで、任意の時効保証を保ちながら、エンドタスクの正当性を改善する。
私たちの証明書は、事実の正しさではなく、情報の十分さを制御します -- 停止シーケンスの10.9%は、ゲートと不正なままです(13.2-22.7%)。
EDFLは、安全クリティカルドメインのためのスタンドアロンソリューションとしてではなく、検証負荷を83%削減する第1段階のフィルタとして機能する。
関連論文リスト
- Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z) - Abduct, Act, Predict: Scaffolding Causal Inference for Automated Failure Attribution in Multi-Agent Systems [20.846301581161978]
マルチエージェントシステムにおける障害帰属は、批判的だが未解決の課題である。
現在の手法では、これを長い会話ログ上のパターン認識タスクとして扱う。
A2P Scaffoldingは、パターン認識から構造化因果推論タスクへの障害帰属を変換する。
論文 参考訳(メタデータ) (2025-09-12T16:51:15Z) - Unlearning at Scale: Implementing the Right to be Forgotten in Large Language Models [0.0]
我々のアプローチは最小限のプログラムとして扱い、マイクロバッチレコードにログを出力する。
ピン付きスタックと決定論的カーネルの下で、トレーニングテールを再生すると、トレーニング保持セットと同じパラメータが生成される。
論文 参考訳(メタデータ) (2025-08-17T03:29:22Z) - Distributed Training under Packet Loss [8.613477072763404]
信頼性の低いコネクションを利用するとレイテンシが低下するが、パケットを落としてモデルの精度と収束を犠牲にする可能性がある。
そこで本研究では,パケット損失の正確性と収束性を保証する原理的なエンドツーエンドソリューションを提案する。
この研究は、コミュニケーション効率の高いプロトコルと、現代の大規模モデルの訓練で要求される精度と保証のギャップを埋めるものである。
論文 参考訳(メタデータ) (2025-07-02T11:07:20Z) - Boosting LLM Reasoning via Spontaneous Self-Correction [43.4980625253775]
数学推論を改善するためのアプローチの1つは自己補正である。
既存の自己補正アプローチは、修正を独立したポストジェネレーションとして扱う。
本研究では,LLMが単一推論パスでインターリーブされた解と検証を生成できる自己補正手法であるSPOCを提案する。
論文 参考訳(メタデータ) (2025-06-07T21:23:00Z) - S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - Training Language Models to Self-Correct via Reinforcement Learning [98.35197671595343]
自己補正は、現代の大規模言語モデル(LLM)では、ほとんど効果がないことが判明した。
完全自己生成データを用いたLLMの自己補正能力を大幅に向上させるマルチターンオンライン強化学習手法であるSCoReを開発した。
SCoReは最先端の自己補正性能を実現し,MATHとHumanEvalでそれぞれ15.6%,9.1%向上した。
論文 参考訳(メタデータ) (2024-09-19T17:16:21Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Consistent Diffusion Models: Mitigating Sampling Drift by Learning to be
Consistent [97.64313409741614]
本稿では, モデルが生成したデータ上での予測が時間とともに一定であることを示す, 両立性特性を強制することを提案する。
CIFAR-10の条件および非条件生成とAFHQとFFHQのベースライン改良について,本研究の新たな訓練目標が得られた。
論文 参考訳(メタデータ) (2023-02-17T18:45:04Z) - Fast and Three-rious: Speeding Up Weak Supervision with Triplet Methods [24.190587751595455]
弱監督は、基底的真理アノテーションに頼ることなく機械学習モデルを構築する一般的な方法である。
既存の手法では、雑音源をモデル化するために潜時変数推定を用いる。
弱監督に高度に適用可能な潜在変数モデルのクラスについて、モデルパラメータに対する閉形式解を見つけることができることを示す。
この洞察を使ってFlyingSquidを構築します。FlyingSquidは、以前の弱い監視アプローチよりも桁違いに高速に実行される弱い監視フレームワークです。
論文 参考訳(メタデータ) (2020-02-27T07:51:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。