論文の概要: GenProve: Learning to Generate Text with Fine-Grained Provenance
- arxiv url: http://arxiv.org/abs/2601.04932v1
- Date: Thu, 08 Jan 2026 13:30:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.218428
- Title: GenProve: Learning to Generate Text with Fine-Grained Provenance
- Title(参考訳): GenProve: 細粒度でテキストを生成することを学ぶ
- Authors: Jingxuan Wei, Xingyue Wang, Yanghaoyu Liao, Jie Dong, Yuchen Liu, Caijun Jia, Bihui Yu, Junnan Zhu,
- Abstract要約: 本稿では, モデルが文レベル三重項を同時に生成しながら, フロートな解を生成するタスクである生成時ファイン・グラニュアル・プロヴァンス(Generation-time Fine-fine Provenance)を提案する。
GenProveは,回答忠実度と証明精度の複合報酬を最適化することにより,14個の強力なLDMよりも高い性能を示した。
- 参考スコア(独自算出の注目度): 14.66501508318216
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLM) often hallucinate, and while adding citations is a common solution, it is frequently insufficient for accountability as users struggle to verify how a cited source supports a generated claim. Existing methods are typically coarse-grained and fail to distinguish between direct quotes and complex reasoning. In this paper, we introduce Generation-time Fine-grained Provenance, a task where models must generate fluent answers while simultaneously producing structured, sentence-level provenance triples. To enable this, we present ReFInE (Relation-aware Fine-grained Interpretability & Evidence), a dataset featuring expert verified annotations that distinguish between Quotation, Compression, and Inference. Building on ReFInE, we propose GenProve, a framework that combines Supervised Fine-Tuning (SFT) with Group Relative Policy Optimization (GRPO). By optimizing a composite reward for answer fidelity and provenance correctness, GenProve significantly outperforms 14 strong LLMs in joint evaluation. Crucially, our analysis uncovers a reasoning gap where models excel at surface-level quotation but struggle significantly with inference-based provenance, suggesting that verifiable reasoning remains a frontier challenge distinct from surface-level citation.
- Abstract(参考訳): 大規模な言語モデル(LLM)は、しばしば幻覚的であり、引用を追加することは一般的な解決策であるが、引用されたソースがどのように生成されたクレームをサポートするかを検証するのに苦労しているため、説明責任に対してしばしば不十分である。
既存の方法は一般に粗い粒度であり、直接の引用と複雑な推論を区別できない。
本稿では, モデルが文レベルの三重項を同時に生成しながら, フロートな解を生成するタスクである生成時ファイン・グラニュアル・プロヴァンス(Generation-time Fine-fine Provenance)を提案する。
これを実現するために、ReFInE(Relation-aware Fine-fine Interpretability & Evidence)を提案する。
ReFInE上に構築されたGenProveは、スーパービジョンファインチューニング(SFT)とグループ相対ポリシー最適化(GRPO)を組み合わせたフレームワークである。
GenProveは,回答忠実度と証明精度の複合報酬を最適化することにより,14個の強力なLDMよりも高い性能を示した。
重要な点として、我々の分析では、モデルが表面レベルの引用において優れているが、推論に基づく証明にかなり苦労している理由のギャップが明らかとなり、検証可能な推論は、表面レベルの引用とは別個のフロンティアチャレンジのままであることが示唆された。
関連論文リスト
- Coupled Variational Reinforcement Learning for Language Model General Reasoning [83.82392089177841]
変分推論と強化学習を橋渡しするために,textitbCoupled bVari bReinforcement bLearning (CoVRL)を提案する。
CoVRLはベースモデルよりも12.4%向上し、最先端の検証不要なRLベースラインよりも2.3%向上した。
論文 参考訳(メタデータ) (2025-12-14T07:03:51Z) - RouteRAG: Efficient Retrieval-Augmented Generation from Text and Graph via Reinforcement Learning [69.87510139069218]
Retrieval-Augmented Generation (RAG)は、非パラメトリック知識をLarge Language Models (LLM)に統合する
強化学習(RL)による多ターン推論へのテキストベースRAGの進歩
LLMがマルチターンおよび適応的なグラフテキストハイブリッドRAGを実現するためのRLベースのフレームワークであるモデルを導入する。
論文 参考訳(メタデータ) (2025-12-10T10:05:31Z) - Decomposition-Enhanced Training for Post-Hoc Attributions In Language Models [64.49342399229529]
我々は、ポストホック帰属を推論問題として再編成し、回答を構成単位に分解し、それぞれ特定の文脈に結び付けることができると論じる。
DecompTuneは、モデルに中間的推論ステップとして解解分解を生成することを教えるポストトレーニング手法である。
DecompTuneは、広範な実験と改善を通じて、属性の品質を大幅に改善し、先行手法より優れ、最先端のフロンティアモデルに適合または超えている。
論文 参考訳(メタデータ) (2025-10-29T17:58:59Z) - VeriCite: Towards Reliable Citations in Retrieval-Augmented Generation via Rigorous Verification [107.75781898355562]
証拠を厳格に検証し,回答の帰属性を高めるために設計された,VeriCiteと呼ばれる新しいフレームワークを紹介する。
我々は,5つのオープンソースLCMと4つのデータセットを対象とした実験を行い,VeriCiteが回答の正しさを維持しつつ,引用品質を大幅に向上できることを実証した。
論文 参考訳(メタデータ) (2025-10-13T13:38:54Z) - Writing-Zero: Bridge the Gap Between Non-verifiable Tasks and Verifiable Rewards [11.149294285483782]
我々は、検証不可能なタスクと検証可能な報酬のギャップを埋める統一的なRLVRベースのトレーニングパラダイムを提案する。
本稿では,GenRMとBootstrapped Relative Policy Optimization (BRPO)アルゴリズムを提案する。
提案手法は,LLMが微調整を監督せずに堅牢な書込み機能を開発する上で有効である。
論文 参考訳(メタデータ) (2025-05-30T14:34:57Z) - Ground Every Sentence: Improving Retrieval-Augmented LLMs with Interleaved Reference-Claim Generation [51.8188846284153]
分散テキスト生成(ATG)は,RAGシステムにおける信頼性と妥当性を高めるために提案される。
本稿では,参照と回答を段階的に交互に生成する詳細なATG手法であるReClaimを提案する。
広範囲な実験により,ReClaimの有効性が検証され,90%の引用精度が得られた。
論文 参考訳(メタデータ) (2024-07-01T20:47:47Z) - Model Internals-based Answer Attribution for Trustworthy Retrieval-Augmented Generation [8.975024781390077]
MIRAGE --Model Internals-based RAG Explanations -- このモデル内部を用いたプラグアンドプレイアプローチは、質問応答アプリケーションにおける忠実な回答属性である。
提案手法を多言語QAデータセット上で評価し,人間の回答属性と高い一致性を見いだした。
論文 参考訳(メタデータ) (2024-06-19T16:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。