論文の概要: Distill and Align Decomposition for Enhanced Claim Verification
- arxiv url: http://arxiv.org/abs/2602.21857v1
- Date: Wed, 25 Feb 2026 12:32:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.833443
- Title: Distill and Align Decomposition for Enhanced Claim Verification
- Title(参考訳): 拡張クレーム検証のための希釈・アライニング分解
- Authors: Jabez Magomere, Elena Kochkina, Samuel Mensah, Simerjot Kaur, Fernando Acero, Arturo Oncevay, Charese H. Smiley, Xiaomo Liu, Manuela Veloso,
- Abstract要約: 複雑なクレーム検証には、文を検証可能なサブ文に分解する必要がある。
本稿では,分解品質と検証器のアライメントを最適化する強化学習手法を提案する。
我々のフレームワークは、より小さな言語モデルで最先端のクレーム検証を実現できる。
- 参考スコア(独自算出の注目度): 51.93960785128124
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Complex claim verification requires decomposing sentences into verifiable subclaims, yet existing methods struggle to align decomposition quality with verification performance. We propose a reinforcement learning (RL) approach that jointly optimizes decomposition quality and verifier alignment using Group Relative Policy Optimization (GRPO). Our method integrates: (i) structured sequential reasoning; (ii) supervised finetuning on teacher-distilled exemplars; and (iii) a multi-objective reward balancing format compliance, verifier alignment, and decomposition quality. Across six evaluation settings, our trained 8B decomposer improves downstream verification performance to (71.75%) macro-F1, outperforming prompt-based approaches ((+1.99), (+6.24)) and existing RL methods ((+5.84)). Human evaluation confirms the high quality of the generated subclaims. Our framework enables smaller language models to achieve state-of-the-art claim verification by jointly optimising for verification accuracy and decomposition quality.
- Abstract(参考訳): 複雑なクレーム検証には、文を検証可能なサブ文に分解する必要があるが、既存の手法では、分解品質と検証性能の整合に苦慮している。
グループ相対ポリシー最適化(GRPO)を用いて,分解品質と検証器アライメントを協調的に最適化する強化学習(RL)手法を提案する。
私たちの方法が統合されます。
(i)構造化された逐次的推論
二 教師が蒸留した模範者の微調整を監督すること、及び
三)多目的報酬バランスフォーマットのコンプライアンス、検証器のアライメント、分解品質。
6つの評価設定で、トレーニングされた8Bデコンポザは、ダウンストリーム検証性能を(71.75%)マクロF1に改善し、プロンプトベースのアプローチ(+1.99、+6.24)および既存のRLメソッド(+5.84)よりも優れています。
人的評価は、生成されたサブステートメントの高品質を確認する。
我々のフレームワークは、検証精度と分解品質を協調的に最適化することにより、より小さな言語モデルで最先端のクレーム検証を実現することができる。
関連論文リスト
- PRIME: A Process-Outcome Alignment Benchmark for Verifiable Reasoning in Mathematics and Engineering [71.15346406323827]
本稿では,プロセス・アウトカム・アライメント・アライメント・検証における検証結果を評価するベンチマークであるPRIMEを紹介する。
現在の検証器は、しばしば導出欠陥を検出するのに失敗する。
本稿では,PRIMEで選択した検証手法を利用したプロセス認識型RLVRトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2026-02-12T04:45:01Z) - Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration [49.9937230730202]
本稿では,新たなアクター・リファイナ・コラボレーション・フレームワークであるSearch-R2を提案する。
提案手法は,生成過程をアクターに分解し,最初の推論軌道を生成する。
本稿では,検索-R2がモデルスケール全体にわたって強力なRAGとRLベースのベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-03T15:32:09Z) - Evidence-Augmented Policy Optimization with Reward Co-Evolution for Long-Context Reasoning [52.144281362465996]
本稿では,強化学習を長期シナリオに適用するためのEAPO(Evidence-Augmented Policy Optimization)を提案する。
最初にEvidence-Augmented Reasoningパラダイムを確立し、Tree-Structued Evidence Smplingを介して検証する。
次に、報酬モデルがグループ相対エビデンス・リワードを計算する特殊なRLアルゴリズムを導入する。
トレーニングを通して正確な監視を維持するため、適応的リワード・ポリティ共進化機構をさらに取り入れる。
論文 参考訳(メタデータ) (2026-01-15T11:40:57Z) - Unified Generation and Self-Verification for Vision-Language Models via Advantage Decoupled Preference Optimization [48.078132893679744]
本稿では,一つの政策の中で回答生成と自己検証を共同で学習する統合強化学習フレームワークを提案する。
ADPOは最大で+34.1%高い検証AUCと-53.5%低い推論時間を実現し、MathVista/MMMUでは+2.8%/+1.4%の精度、ReasonSegでは+1.9 cIoU、AndroidControl/GUI Odysseyでは+1.7%/+1.0%のステップ成功率を持つ。
論文 参考訳(メタデータ) (2026-01-04T11:09:33Z) - DecMetrics: Structured Claim Decomposition Scoring for Factually Consistent LLM Outputs [0.609170287691728]
textttCOMPLETENESS, textttCORRECTNESS, textttSEMANTIC ENTROPY の3つの新しいメトリクスから成る textbfDecMetrics を導入する。
提案手法は,クレーム分解のベンチマークを設定し,ファクトチェックシステムの信頼性と有効性を向上させることを目的とする。
論文 参考訳(メタデータ) (2025-08-31T10:22:54Z) - AssertCoder: LLM-Based Assertion Generation via Multimodal Specification Extraction [32.14733357890831]
本稿では,高品質なSVAを自動的に生成する新しい統合フレームワークAssertCoderを提案する。
AssertCoderは、不均一な仕様フォーマットを解析するために、モダリティに敏感な事前処理を使用する。
このフレームワークは、アサーションの品質を評価するために、突然変異に基づく評価アプローチを取り入れている。
論文 参考訳(メタデータ) (2025-07-14T14:43:14Z) - Reasoning-CV: Fine-tuning Powerful Reasoning LLMs for Knowledge-Assisted Claim Verification [17.35114345065597]
CoT(Chain-of-Thought)-Verifyパラダイムは、サブステートへの分解を必要とせず、検証段階を分離することなく、元の複雑クレームに対するCoT検証パスを生成する。
Reasoning-CVは既存のDecompose-Then-Verify法よりも優れた知識支援クレーム検証性能を示す。
論文 参考訳(メタデータ) (2025-05-18T10:28:54Z) - Optimizing Decomposition for Optimal Claim Verification [15.68967195914405]
既存の分解ポリシー、通常は手作りのデモは、原子性の観点から下流の検証器とうまく一致しない。
本稿では,検証者からのフィードバックを利用して,検証者優先の原子性に対する要求を動的に分解する政策を学習する強化学習フレームワークである動的分解を提案する。
実験の結果、動的分解は既存の分解ポリシーより優れており、検証信頼度は0.07向上し、入力クレームの検証器、データセット、原子度の平均で0.12精度が向上していることがわかった。
論文 参考訳(メタデータ) (2025-03-19T15:56:21Z) - In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。