論文の概要: Interactive Critique-Revision Training for Reliable Structured LLM Generation
- arxiv url: http://arxiv.org/abs/2605.08327v1
- Date: Fri, 08 May 2026 17:00:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.570205
- Title: Interactive Critique-Revision Training for Reliable Structured LLM Generation
- Title(参考訳): 信頼性構造LDM生成のための相互批判・修正訓練
- Authors: Fei Xu Yu, Zuyuan Zhang, Mahdi Imani, Nathaniel D. Bastian, Tian Lan,
- Abstract要約: DPA-GRPOは,構成された検証器の介入による2人プレイヤジェネレータゲームのためのペアアクショントレーニング手法である。
我々は,非正規化ゲームを分析し,厳格に低いリワード介入やリビジョン行動に対する肯定的な確率が,一側偏差を生み出すことを示す。
TaxCalc TY24の実験では、DPA-GRPOはゼロショット生成とジェネレータのみのRLベースラインよりも構造化された決定精度を向上させる。
- 参考スコア(独自算出の注目度): 18.00222080273147
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In structured decision-making workflows such as form filling, compliance checking, and maintenance reporting, LLM outputs must be locally correct, globally consistent, and auditable against task-specific rules. Existing refinement methods often rely on heuristic debate, self-play, or LLM-generated supervision, creating a second-order assurance problem. We propose DPA-GRPO (Dual Paired-Action Group-Relative Policy Optimization), a paired-action training method for a two-player generator--verifier game with structured verifier interventions. The generator proposes outputs and may revise them when challenged; the verifier either remains silent or raises a safety assurance case (SAC) containing a claim, argument, and evidence. These SAC/no-SAC and KEEP/REVISE decisions induce paired counterfactual action groups, which DPA-GRPO uses for role-specific KL-regularized GRPO updates. We analyze the unregularized game and show that positive probability on strictly lower-reward intervention or revision actions creates a profitable unilateral deviation. Under standard stochastic-approximation assumptions, DPA-GRPO tracks the corresponding game ODE, whose isolated asymptotically stable limit points are stationary and candidate local equilibria under role-wise local optimality. Experiments on TaxCalcBench TY24 show that DPA-GRPO improves structured decision accuracy over zero-shot generation and generator-only RL baselines across Qwen3-4B and Qwen3-8B. Training increases correct silent acceptance, reduces missed errors, and improves calibrated revision behavior, indicating gains for both generator and verifier.
- Abstract(参考訳): フォームフィリングやコンプライアンスチェック、メンテナンスレポートといった構造化された意思決定ワークフローでは、LLM出力は局所的に正確で、グローバルに一貫性があり、タスク固有のルールに対して監査可能である必要がある。
既存の改良手法は、しばしばヒューリスティックな議論、セルフプレイ、LLM生成の監督に依存し、二階保証問題を生み出している。
DPA-GRPO(Dual Paired-Action Group-Relative Policy Optimization)を提案する。
検証者は静かのままか、クレーム、議論、証拠を含む安全保証事件(SAC)を提起する。
これらのSAC/no-SACおよびKEEP/REVISE決定は、DPA-GRPOがロール特異的なKL正規化GRPO更新に使用する対向作用群を誘導する。
我々は,非正規化ゲームを分析し,厳格に低いリワード介入やリビジョン行動に対する肯定的な確率が,一側偏差を生み出すことを示す。
標準的な確率近似の仮定の下では、DPA-GRPO は対応するゲームODE をトラックする。
TaxCalcBench TY24の実験では、DPA-GRPOは、ゼロショット生成と、Qwen3-4BとQwen3-8BをまたいだジェネレータのみのRLベースラインよりも、構造化された決定精度を向上させることが示されている。
トレーニングは、正しいサイレント受け入れを高め、ミスを減らし、校正された修正動作を改善し、ジェネレータと検証器の両方の利得を示す。
関連論文リスト
- Four-Axis Decision Alignment for Long-Horizon Enterprise AI Agents [0.0]
長期のエンタープライズエージェントは、失われた記憶、多段階の推論、および規制の制約の下で高い評価を下す。
長距離決定行動は、4つの軸に分解され、それぞれ独立に測定可能で、フェール可能となる。
論文 参考訳(メタデータ) (2026-04-21T13:37:19Z) - Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data [55.84428098924793]
構造保存探索を行うためのパラメータ自由復号法である Constrained Uniform Top-K Smpling (CUTS) を提案する。
グループ内の利点分散を増幅するために、エクスプロイトと探索的なロールアウトを相乗化するためのトレーニングフレームワークであるMixed-CUTSに統合する。
特にMixed-CUTSは、AIME25ベンチマークのPass@1の精度を標準のGRPOよりも15.1%向上している。
論文 参考訳(メタデータ) (2026-04-20T16:43:28Z) - Quantifying Self-Preservation Bias in Large Language Models [9.590157416396194]
本稿では,emphTwo-role Benchmark for Self-Preservationを紹介する。
役割アイデンティティが客観的ユーティリティを過度に上回る頻度を測定する。
我々は,低改善体制下では,モデルが解釈スラックを利用してポストホック合理化を行うのを観察する。
論文 参考訳(メタデータ) (2026-04-02T15:38:31Z) - When Right Meets Wrong: Bilateral Context Conditioning with Reward-Confidence Correction for GRPO [18.988527161000203]
グループ相対政策最適化(GRPO)は、推論モデルを訓練するための効果的な方法として登場した。
本稿では,GRPOの目的が正解率と正解率とのマージンを暗黙的に最大化することを示す。
本稿では,モデルが相互参照を成功させる機構であるバイラテラルコンテキストコンディショニング(BICC)を提案する。
論文 参考訳(メタデータ) (2026-03-13T16:25:02Z) - Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。
textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文 参考訳(メタデータ) (2026-03-10T04:07:39Z) - Controllable Exploration in Hybrid-Policy RLVR for Multi-Modal Reasoning [88.42566960813438]
CalibRLは、制御可能な探索と専門家のガイダンスをサポートするハイブリッド政治RLVRフレームワークである。
CalibRLは政策エントロピーを誘導的に増加させ、目標分布を明らかにする。
ドメイン内設定とドメイン外設定の両方を含む8つのベンチマークの実験は、一貫した改善を示している。
論文 参考訳(メタデータ) (2026-02-22T07:23:36Z) - WS-GRPO: Weakly-Supervised Group-Relative Policy Optimization for Rollout-Efficient Reasoning [67.45237332694025]
グループ相対政策最適化は、複雑な推論に基づいて言語モデルを訓練するのに効果的である。
Weakly Supervised GRPOを提案し、端末報酬を正当性を考慮したガイダンスに変換することにより、ロールアウト効率を向上させる。
論文 参考訳(メタデータ) (2026-02-19T02:43:35Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - PAG: Multi-Turn Reinforced LLM Self-Correction with Policy as Generative Verifier [18.771754895027616]
Policy as Generative Verifier (PAG) は、政策と検証役を交互に交互に行うことで、大規模言語モデルに自己修正の権限を与えるフレームワークである。
モデル崩壊を緩和し、推論能力と検証能力の両方を共同で強化する。
論文 参考訳(メタデータ) (2025-06-12T06:59:35Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。