論文の概要: Reliable Use of Lemmas via Eligibility Reasoning and Section$-$Aware Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.00998v1
- Date: Sun, 01 Feb 2026 03:34:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.516788
- Title: Reliable Use of Lemmas via Eligibility Reasoning and Section$-$Aware Reinforcement Learning
- Title(参考訳): 信頼度推論とセクション$-$$Aware Reinforcement Learningによるレマの信頼性向上
- Authors: Zhikun Xu, Xiaodong Yu, Ben Zhou, Jiang Liu, Jialian Wu, Ze Wang, Ximeng Sun, Hao Chen, Zicheng Liu,
- Abstract要約: 最近の大規模言語モデルは、しばしば補題を誤適用し、仮定を検証せずに結論をインポートする。
本稿では、この仕様を2$の出力で符号化し、強化学習による訓練を行うRULESを提案する。
訓練と評価は多種多様な自然言語と形式的証明コーパスに基づいて行われる。
- 参考スコア(独自算出の注目度): 27.01879432423409
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent large language models (LLMs) perform strongly on mathematical benchmarks yet often misapply lemmas, importing conclusions without validating assumptions. We formalize lemma$-$judging as a structured prediction task: given a statement and a candidate lemma, the model must output a precondition check and a conclusion$-$utility check, from which a usefulness decision is derived. We present RULES, which encodes this specification via a two$-$section output and trains with reinforcement learning plus section$-$aware loss masking to assign penalty to the section responsible for errors. Training and evaluation draw on diverse natural language and formal proof corpora; robustness is assessed with a held$-$out perturbation suite; and end$-$to$-$end evaluation spans competition$-$style, perturbation$-$aligned, and theorem$-$based problems across various LLMs. Results show consistent in$-$domain gains over both a vanilla model and a single$-$label RL baseline, larger improvements on applicability$-$breaking perturbations, and parity or modest gains on end$-$to$-$end tasks; ablations indicate that the two$-$section outputs and section$-$aware reinforcement are both necessary for robustness.
- Abstract(参考訳): 最近の大規模言語モデル(LLM)は、数学的なベンチマークで強く機能するが、しばしば不適切な補題を適用し、仮定を検証せずに結論をインポートする。
我々は、構造化予測タスクとしてlemma$-$judgingを定式化する: 文と候補レムマが与えられた場合、モデルが事前条件チェックと結果$-$utilityチェックを出力し、有用性決定が導出される。
RULESは2$$section出力でこの仕様を符号化し、強化学習とセクション$$$aware損失マスキングにより、エラーの原因となるセクションにペナルティを割り当てる。
トレーニングと評価は多種多様な自然言語と形式的証明コーパスに基づいて行われ、ロバストネスは保持された$-$out摂動スイートで評価され、 end$-$to$-$end 評価は競争$-$style、perturbation$-$aligned、定理$-$-$based 問題にまたがる。
結果は、バニラモデルと単一$$-label RLベースラインの両方に対して、一貫した$-$ Domainゲインを示し、適用性を大きく改善する$-$breaking摂動、 end$-$to$-$endタスクにおけるパリティまたはモデストゲインを示す。
関連論文リスト
- Fundamental Novel Consistency Theory: $H$-Consistency Bounds [19.493449206135296]
機械学習では、トレーニング中に最適化された損失関数は、タスクのパフォーマンスを定義するターゲット損失とは異なることが多い。
本稿では,サロゲート損失推定誤差に対する目標損失推定誤差について詳細に検討する。
私たちの分析では、$H$-一貫性境界が導かれ、これは仮説セットの$H$に対する説明が保証される。
論文 参考訳(メタデータ) (2025-12-28T11:02:20Z) - Hard Negative Sample-Augmented DPO Post-Training for Small Language Models [4.425580048633862]
本稿では,現実的な計算予算下での構造化エラーを対象とする,軽量で実用的なポストトレーニングパイプラインを提案する。
本研究では,候補解を6次元の誤差プロファイルに分解し,解釈可能な誤りと不条理のスコアに集約するコンパクトなMathVerifierを提案する。
実験により、検証対象の重み付きDPOは、バニラSFTや未重み付きDPOよりも目標となる改善をもたらすことが示された。
論文 参考訳(メタデータ) (2025-12-17T06:15:52Z) - Mastering Multiple-Expert Routing: Realizable $H$-Consistency and Strong Guarantees for Learning to Defer [30.389055604165222]
本稿では,理論学習の保証が強い新しい代理損失関数と効率的なアルゴリズムを提案する。
実現可能な$H$一貫性、$H$一貫性境界、単段階および二段階の学習シナリオにおけるベイズ一貫性に関するオープンな疑問に対処する。
実効化可能な$H$整合性,$H$整合性境界,および2つの経験的シナリオに対するベイズ整合性,そして自然仮定の下では多重経験的シナリオを実現するための新たな代理的損失を導出する。
論文 参考訳(メタデータ) (2025-06-25T17:48:58Z) - Autoformulation of Mathematical Optimization Models Using LLMs [50.030647274271516]
本稿では,自然言語問題記述から解法対応最適化モデルを自動生成する,$textitautoformulation$の問題にアプローチする。
オートフォーミュレーションの3つの主要な課題を識別する: $textit(1)$ 巨大で問題に依存した仮説空間、および$textit(2)$ 不確実性の下でこの空間を効率的かつ多様に探索する。
我々は,$textitLarge Language Models$と$textitMonte-Carlo Tree Search$を併用した新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-03T20:41:38Z) - Training Large Language Models for Reasoning through Reverse Curriculum Reinforcement Learning [54.585428241509234]
逆カリキュラム強化学習(RL)によるR$3の学習推論を提案する。
RLは、大規模言語モデルのプロセス監視の利点を達成するために、結果監視のみを採用する。
論文 参考訳(メタデータ) (2024-02-08T16:46:26Z) - OVM, Outcome-supervised Value Models for Planning in Mathematical Reasoning [15.59540726867483]
我々は、ガイド付き復号法では、ステップごとの正当性を保証するよりも、不完全推論経路の可能性を評価する方が有利であると主張している。
誘導復号化のための$textitoutcomeの監督が本質的に価値モデルとして機能するという発見に触発されて、アウトカム管理価値モデル(OVM)を提案する。
GSM8KとGame of 24の2つの多段階数学的推論データセットに対する実験により,OVMモデルの優れた性能が示された。
論文 参考訳(メタデータ) (2023-11-16T09:56:28Z) - How Shift Equivariance Impacts Metric Learning for Instance Segmentation [11.981698445848748]
標準のエンコーダ-デコーダネットワークは、最大$fdl$同じに見えるオブジェクトを識別する能力を持っている。
また,タイルとストッチによる不連続を避けるためには,実効的な畳み込みと,トレーニング出力ウィンドウサイズを厳密に$fl$より大きく組み合わせる必要があることを示した。
論文 参考訳(メタデータ) (2021-01-14T19:48:24Z) - Improving Robustness and Generality of NLP Models Using Disentangled
Representations [62.08794500431367]
スーパービジョンニューラルネットワークはまず入力$x$を単一の表現$z$にマップし、次に出力ラベル$y$にマッピングする。
本研究では,非交叉表現学習の観点から,NLPモデルの堅牢性と汎用性を改善する手法を提案する。
提案した基準でトレーニングしたモデルは、広範囲の教師付き学習タスクにおいて、より堅牢性とドメイン適応性を向上することを示す。
論文 参考訳(メタデータ) (2020-09-21T02:48:46Z) - Distributional Robustness and Regularization in Reinforcement Learning [62.23012916708608]
経験値関数の新しい正規化器を導入し、ワッサーシュタイン分布のロバストな値関数を下限とすることを示す。
強化学習における$textitexternalな不確実性に対処するための実用的なツールとして正規化を使用することを提案する。
論文 参考訳(メタデータ) (2020-03-05T19:56:23Z) - Upper Confidence Primal-Dual Reinforcement Learning for CMDP with
Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討
本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。
我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文 参考訳(メタデータ) (2020-03-02T05:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。