論文の概要: ECPO: Evidence-Coupled Policy Optimization for Evidence-Certified Candidate Ranking
- arxiv url: http://arxiv.org/abs/2605.21993v1
- Date: Thu, 21 May 2026 04:42:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.093947
- Title: ECPO: Evidence-Coupled Policy Optimization for Evidence-Certified Candidate Ranking
- Title(参考訳): ECPO:Evidence-Coupled Policy Optimization for Evidence-Certified Candidate Ranking
- Authors: Miaobo Hu, Shuhao Hu, BoKun Wang, Yina Sa, Xin Wang, Xiaobo Guo, Daren Zha, Jun Xiao,
- Abstract要約: 本稿では,Evidence-Coupled Policy Optimization (ECPO)について紹介する。
ECPOはスケルトンアライメント、引数一貫性、オプショングラフ機能から解釈可能なトラジェクトリ報酬を学習する。
次に、リストワイドランキングユーティリティ、スパンレベル証明書の妥当性、ラベルのない決定論的検証によって計算されたエビデンスサイクル報酬の3つの組み合わせによる制約付きポリシーを最適化する。
- 参考スコア(独自算出の注目度): 21.792889952064527
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ranking systems used in decision-support settings should not only order candidates but also expose evidence that can be independently checked. We study evidence-certified candidate ranking: given an intent_id, a predefined plan skeleton, a window-local candidate roster, and text-derived candidate trajectories with span provenance, a system must output a Top-K list together with doc_id:span evidence certificates whose cited spans are sufficient to recover the decision. We instantiate this task on MAVEN-ERE and RAMS with fixed upstream extraction, window-local randomized candidate identifiers, skeleton-aligned trajectory supervision, hard negatives, and audit references. We introduce Evidence-Coupled Policy Optimization (ECPO), a listwise policy-optimization objective whose action is the joint object of ranking and evidence certificate. ECPO first learns an interpretable trajectory reward from skeleton alignment, argument consistency, and optional graph features; it then optimizes a constrained policy with three coupled rewards: listwise ranking utility, span-level certificate validity, and an evidence-cycle reward computed by a label-free deterministic verifier that reconstructs candidate support from claim-stripped cited spans. This reframes the goal from maximizing ordinary NDCG alone to maximizing CertNDCG and decision-evidence coupling. The evaluation compares ECPO against zero-shot, SFT, and GRPO policies, RM-only scoring with deterministic evidence attachment, grammar/JSON-constrained decoding, validator retry, best-of-N RM selection, and post-hoc evidence rationalization under closed-roster, predicted-roster, and hybrid-roster settings.
- Abstract(参考訳): 意思決定支援設定で使用されるランキングシステムは、候補を注文するだけでなく、独立してチェックできる証拠を公開する必要がある。
Intent_id,predefined plan skeleton,window-local candidate roster,text- derived candidate trajectories with span provenance, system must output a Top-K list with with doc_id:span evidence certificates that cited spans are enough to recover the decision。
我々は,MAVEN-ERE と RAMS 上で,固定された上流抽出,ウィンドウローカルなランダム化候補識別子,骨格整列軌道監視,ハードネガティブ,監査基準を用いて,このタスクをインスタンス化する。
本稿では,Evidence-Coupled Policy Optimization (ECPO)について紹介する。
ECPOはまず、スケルトンアライメント、引数の一貫性、オプショングラフ機能から解釈可能なトラジェクトリ報酬を学習し、その後、リストワイドランキングユーティリティ、スパンレベル証明の妥当性、ラベルなし決定論的検証器によって計算されたエビデンスサイクル報酬の3つの組み合わせによる制約付きポリシーを最適化する。
これにより、通常のNDCGのみを最大化することから、CertNDCGと決定と証拠の結合を最大化するという目標が立て直される。
評価は、ゼロショット、SFT、GRPOポリシー、決定論的エビデンスアタッチメントによるRMのみスコア、文法/JSON制約デコード、バリデータ再試行、ベストオブNRM選択、および閉ロースター、予測ロースター、ハイブリッドロースター設定によるポストホックエビデンス合理化とを比較した。
関連論文リスト
- CriterAlign: Criterion-Centric Rationale Alignment for Code Preference Judging [95.02210956333374]
本稿では,一対の選好評価にルーブリックに基づく判断を適応させる基準中心のフレームワークを提案する。
BigCodeRewardでは、CriterAlignはQwen2.5-VL-32Bモノリシック判事を60.4%から66.3%に改善した。
論文 参考訳(メタデータ) (2026-05-19T10:59:19Z) - F-GRPO: Factorized Group-Relative Policy Optimization for Unified Candidate Generation and Ranking [79.49893545611779]
大規模言語モデル(LLM)はサブセットを生成し、それを1つの自己回帰パス内で順序付けることができる。
この柔軟性は、新しい最適化課題をもたらす: モデルが出力空間を検索し、完全なランクリストが生成された後にのみユーティリティフィードバックを受けなければならない。
このクレジット割り当てギャップは、エンドツーエンドの最適化を不安定にし、サンプル非効率にする。
本稿では,単一自己回帰的ロールアウト内の両方を実行する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-13T04:52:33Z) - GEM: Guided Expectation-Maximization for Behavior-Normalized Candidate Action Selection in Offline RL [7.213487945222728]
GEM(Guided expectation-Maximization)は,マルチモーダルかつ制御可能なアクション選択を実現する分析フレームワークである。
推測中、GEMは、行動正規化サポートと結びついた保守的なアンサンブルの低信頼を用いて、候補ベースの選択を行う。
実証的には、GEMはD4RLベンチマークで競合し、計算を再トレーニングせずに意思決定品質と交換する単純な推論時予算ノブ(候補数)を提供する。
論文 参考訳(メタデータ) (2026-03-24T14:04:43Z) - DARC: Disagreement-Aware Alignment via Risk-Constrained Decoding [59.16244104797919]
本稿では,リスク制約付き復号法(DARC)*による分散アライメント(Disagreement-Aware Alignment)を提案する。
DARCは応答選択を、分布的に堅牢で、リスクに敏感な意思決定として捉えている。
アライメントベンチマークの実験では、DARCは競合平均品質を維持しながら、不一致と尾のリスクを低減する。
論文 参考訳(メタデータ) (2026-03-09T09:21:29Z) - Evidence-Augmented Policy Optimization with Reward Co-Evolution for Long-Context Reasoning [52.144281362465996]
本稿では,強化学習を長期シナリオに適用するためのEAPO(Evidence-Augmented Policy Optimization)を提案する。
最初にEvidence-Augmented Reasoningパラダイムを確立し、Tree-Structued Evidence Smplingを介して検証する。
次に、報酬モデルがグループ相対エビデンス・リワードを計算する特殊なRLアルゴリズムを導入する。
トレーニングを通して正確な監視を維持するため、適応的リワード・ポリティ共進化機構をさらに取り入れる。
論文 参考訳(メタデータ) (2026-01-15T11:40:57Z) - RLPO: Residual Listwise Preference Optimization for Long-Context Review Ranking [50.709454968853954]
ポイントワイドスコアは効率的だが、しばしばリストレベルの相互作用を考慮に入れない。
リストワイズアプローチはグローバルなコンテキストを活用することができるが、計算コストが高く、候補リストが大きくなるにつれて不安定になる。
本稿では,リストワイズ表現レベルの残差補正としてランク付けするResidual Listwise Preference Optimization (RLPO)を提案する。
論文 参考訳(メタデータ) (2026-01-12T11:45:19Z) - Ranking Free RAG: Replacing Re-ranking with Selection in RAG for Sensitive Domains [13.58151841630302]
本稿では,RAGにおける再ランク付けを合理的な選択手法で置き換える新しい方法であるMETEORAを提案する。
METEORAは、最先端の再評価手法よりも約50%少ないチャンクを使用しながら、生成精度を33.34%向上させる。
敵対的な設定では、METEORAはF1スコアを0.10から0.44に大幅に改善する。
論文 参考訳(メタデータ) (2025-05-21T20:57:16Z) - Recommendation Systems with Distribution-Free Reliability Guarantees [83.80644194980042]
我々は、主に良いアイテムを含むことを厳格に保証されたアイテムのセットを返す方法を示す。
本手法は, 擬似発見率の厳密な有限サンプル制御によるランキングモデルを提供する。
我々はYahoo!のランキングとMSMarcoデータセットの学習方法を評価する。
論文 参考訳(メタデータ) (2022-07-04T17:49:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。