論文の概要: FineRef: Fine-Grained Error Reflection and Correction for Long-Form Generation with Citations
- arxiv url: http://arxiv.org/abs/2602.18437v1
- Date: Tue, 18 Nov 2025 09:35:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 07:21:25.553535
- Title: FineRef: Fine-Grained Error Reflection and Correction for Long-Form Generation with Citations
- Title(参考訳): FineRef:細粒の誤差反射とCitationによる長期発生の補正
- Authors: Yixing Peng, Licheng Zhang, Shancheng Fang, Yi Liu, Peijian Gu, Quan Wang,
- Abstract要約: FineRefはモデルに、2つの重要な引用エラー、ミスマッチと無関係を自己識別し、修正するように教える。
FineRefは、引用性能と回答精度の両方を大幅に改善する。
我々の7Bモデルは、Citation F1では最大18%、EMリコールでは4%、GPT-4より優れています。
- 参考スコア(独自算出の注目度): 30.28908306106096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating with citations is crucial for trustworthy Large Language Models (LLMs), yet even advanced LLMs often produce mismatched or irrelevant citations. Existing methods over-optimize citation fidelity while overlooking relevance to the user query, which degrades answer quality and robustness in real-world settings with noisy or irrelevant retrieved content. Moreover, the prevailing single-pass paradigm struggles to deliver optimal answers in long-form generation that requiring multiple citations. To address these limitations, we propose FineRef, a framework based on Fine-grained error Reflection, which explicitly teaches the model to self-identify and correct two key citation errors, mismatch and irrelevance, on a per-citation basis. FineRef follows a two-stage training strategy. The first stage instills an "attempt-reflect-correct" behavioral pattern via supervised fine-tuning, using fine-grained and controllable reflection data constructed by specialized lightweight models. An online self-reflective bootstrapping strategy is designed to improve generalization by iteratively enriching training data with verified, self-improving examples. To further enhance the self-reflection and correction capability, the second stage applies process-level reinforcement learning with a multi-dimensional reward scheme that promotes reflection accuracy, answer quality, and correction gain. Experiments on the ALCE benchmark demonstrate that FineRef significantly improves both citation performance and answer accuracy. Our 7B model outperforms GPT-4 by up to 18% in Citation F1 and 4% in EM Recall, while also surpassing the state-of-the-art model across key evaluation metrics. FineRef also exhibits strong generalization and robustness in domain transfer settings and noisy retrieval scenarios.
- Abstract(参考訳): 引用による生成は、信頼できる大言語モデル(LLM)にとって重要であるが、先進的なLLMでさえ、しばしばミスマッチまたは無関係な引用を生成する。
既存の手法では、ユーザクエリとの関連性を見越しながら、引用の忠実度を過度に最適化し、ノイズや無関係な検索コンテンツによって現実の環境での回答の品質と堅牢性を低下させる。
さらに、一般的なシングルパスパラダイムは、複数の引用を必要とする長文生成において最適な回答を提供するのに苦労している。
このような制約に対処するため,FinRefを提案する。FinRefは細粒度エラーリフレクションをベースとしたフレームワークで,入力毎に2つの重要な引用エラー,ミスマッチ,無関係を自己識別し,修正することをモデルに明示的に教える。
FineRefは2段階のトレーニング戦略に従っている。
第1段階では、特別な軽量モデルによって構築された微粒で制御可能な反射データを用いて、教師付き微調整によって「意図-反射-正確な」行動パターンを注入する。
オンライン自己回帰型ブートストラッピング戦略は、検証済みの自己改善例でトレーニングデータを反復的に強化することにより、一般化を改善するように設計されている。
自己回帰補正能力をさらに強化するため、第2段階では、反射精度、応答品質、補正ゲインを促進する多次元報酬スキームを用いてプロセスレベルの強化学習を適用する。
ALCEベンチマークの実験では、FinRefは引用性能と解答精度の両方を大幅に改善することが示された。
我々の7Bモデルは、Citation F1では最大18%、EM Recallでは4%、GPT-4では最大18%、キー評価指標では最先端モデルよりも優れています。
FineRefはまた、ドメイン転送設定やノイズの多い検索シナリオにおいて、強力な一般化と堅牢性を示している。
関連論文リスト
- OCR-Agent: Agentic OCR with Capability and Memory Reflection [5.8505408398110434]
VLM(Large Vision-Language Models)は、複雑な視覚理解タスクにおいて大きな可能性を証明している。
本稿では,機能的リフレクションとメモリリフレクションという2つの重要な機能を備えたモデルを実現する,新しい反復自己補正フレームワークを提案する。
挑戦的なOCRBench v2ベンチマークの実験によると、OCR-Agentは現在のオープンソースSOTAモデルであるInternVL3-8Bを英語で+2.0、中国語サブセットで+1.2で上回っている。
論文 参考訳(メタデータ) (2026-02-24T16:10:27Z) - Trust but Verify: Adaptive Conditioning for Reference-Based Diffusion Super-Resolution via Implicit Reference Correlation Modeling [42.10910149675583]
実世界の劣化は、低品質(LQ)入力と参照(Ref)イメージの対応を信頼できないものにする。
本稿では,一段階拡散フレームワークであるAda-RefSRを提案する。
複数のデータセットの実験では、Ada-RefSRは忠実さ、自然性、効率性の強いバランスを達成している。
論文 参考訳(メタデータ) (2026-02-02T09:34:57Z) - PrefixNLI: Detecting Factual Inconsistencies as Soon as They Arise [60.63315470285562]
MiniTruePrefixesは、テキストプレフィックスよりも事実上の矛盾をよりよく検出する、新しい特殊モデルである。
制御されたデコードフレームワークにMiniTruePrefixesを組み込むことで,抽象的な要約における現実の一貫性が大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-11-03T09:07:44Z) - VeriCite: Towards Reliable Citations in Retrieval-Augmented Generation via Rigorous Verification [107.75781898355562]
証拠を厳格に検証し,回答の帰属性を高めるために設計された,VeriCiteと呼ばれる新しいフレームワークを紹介する。
我々は,5つのオープンソースLCMと4つのデータセットを対象とした実験を行い,VeriCiteが回答の正しさを維持しつつ,引用品質を大幅に向上できることを実証した。
論文 参考訳(メタデータ) (2025-10-13T13:38:54Z) - Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - RefCritic: Training Long Chain-of-Thought Critic Models with Refinement Feedback [57.967762383794806]
RefCriticは、二重ルールベースの報酬による強化学習に基づく、長鎖の批判モジュールである。
我々は5つのベンチマークでQwen2.5-14BとDeepSeek-R1-Distill-Qwen-14BのRefCriticを評価した。
論文 参考訳(メタデータ) (2025-07-20T16:19:51Z) - Lessons from Training Grounded LLMs with Verifiable Rewards [24.35637263339965]
強化学習と内部推論は、大きな言語モデルにおける基盤を強化することができる。
推論強化モデルは命令のみの変種よりも有意に優れていることを示す。
2段階のトレーニングセットアップで、まずは回答と引用の動作を最適化し、次に拒否し、グラウンド化をさらに改善する。
論文 参考訳(メタデータ) (2025-06-18T14:58:13Z) - On the Capacity of Citation Generation by Large Language Models [38.47160164251295]
Retrieval-augmented Generation (RAG) は、大規模言語モデル(LLM)における「ハロシン化」問題を緩和するための有望な方法として現れる。
論文 参考訳(メタデータ) (2024-10-15T03:04:26Z) - Think-then-Act: A Dual-Angle Evaluated Retrieval-Augmented Generation [3.2134014920850364]
大型言語モデル(LLM)は時相の誤りや幻覚的内容の生成といった課題に直面していることが多い。
二重角評価による検索拡張生成フレームワーク textitThink-then-Act を提案する。
論文 参考訳(メタデータ) (2024-06-18T20:51:34Z) - Self-RAG: Learning to Retrieve, Generate, and Critique through
Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。
自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。
様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-17T18:18:32Z) - Towards Reliable and Fluent Large Language Models: Incorporating
Feedback Learning Loops in QA Systems [10.58737969057445]
我々は,大規模な言語モデルによって生成された応答の引用,正しさ,および流布性を評価することができる評論家モデルを訓練するためのデータセットを構築した。
本稿では,批判モデルを利用して生成したテキストの異質な側面をリアルタイムにフィードバックする自動フィードバック機構を提案する。
提案手法の有効性を実験的に検証し,4%の精度向上とMAUVE測定値の約8%の精度向上を図った。
論文 参考訳(メタデータ) (2023-09-08T09:39:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。