論文の概要: Veri-R1: Toward Precise and Faithful Claim Verification via Online Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.01932v1
- Date: Thu, 02 Oct 2025 11:49:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.118294
- Title: Veri-R1: Toward Precise and Faithful Claim Verification via Online Reinforcement Learning
- Title(参考訳): Veri-R1:オンライン強化学習による正確かつ忠実なクレーム検証に向けて
- Authors: Qi He, Cheng Qian, Xiusi Chen, Bingxiang He, Yi R., Fung, Heng Ji,
- Abstract要約: 大規模言語モデル(LLM)によるクレーム検証は近年注目されている。
本稿では,LLMが検索エンジンと対話できるオンライン強化学習フレームワークVeri-R1を紹介する。
実験の結果,Veri-R1は関節の精度を最大30%向上し,エビデンススコアが2倍になることがわかった。
- 参考スコア(独自算出の注目度): 47.55477179722531
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Claim verification with large language models (LLMs) has recently attracted considerable attention, owing to their superior reasoning capabilities and transparent verification pathways compared to traditional answer-only judgments. Online claim verification requires iterative evidence retrieval and reasoning, yet existing approaches mainly rely on prompt engineering or predesigned reasoning workflows without offering a unified training paradigm to improve necessary skills. Therefore, we introduce Veri-R1, an online reinforcement learning (RL) framework that enables an LLM to interact with a search engine and to receive reward signals that explicitly shape its planning, retrieval, and reasoning behaviors. The dynamic interaction between models and retrieval systems more accurately reflects real-world verification scenarios and fosters comprehensive verification skills. Empirical results show that Veri-R1 improves joint accuracy by up to 30% and doubles evidence score, often surpassing larger-scale counterparts. Ablation studies further reveal the impact of reward components and the link between output logits and label accuracy. Our results highlight the effectiveness of online RL for precise and faithful claim verification and provide a foundation for future research. We release our code to support community progress in LLM empowered claim verification.
- Abstract(参考訳): 大規模言語モデル (LLM) によるクレーム検証は, 従来の回答のみの判断と比較して, 優れた推論能力と透明な検証経路のため, 最近注目されている。
オンラインクレーム検証には反復的エビデンス検索と推論が必要であるが、既存のアプローチは主に、必要なスキルを改善するための統一的なトレーニングパラダイムを提供することなく、迅速なエンジニアリングや事前設計された推論ワークフローに依存している。
そこで我々は,LLMが検索エンジンと対話し,その計画,検索,推論行動を明確に形作る報酬信号を受け取ることができるオンライン強化学習(RL)フレームワークであるVeri-R1を紹介した。
モデルと検索システムの動的相互作用は、現実の検証シナリオをより正確に反映し、包括的な検証スキルを育成する。
実験の結果、Veri-R1は最大30%の精度で関節の精度を向上し、証拠のスコアを2倍にし、より大規模なものを上回ることが判明した。
アブレーション研究は、報酬成分の影響と出力ロジットとラベル精度の関係をさらに明らかにした。
本結果は,オンラインRLの正確かつ忠実なクレーム検証の有効性を強調し,今後の研究基盤を提供するものである。
LLMの権限付きクレーム検証において,コミュニティの進展をサポートするためのコードをリリースする。
関連論文リスト
- Improving Context Fidelity via Native Retrieval-Augmented Reasoning [35.50952279309109]
大規模言語モデル(LLM)は、しばしば文脈の忠実さと闘い、提供された情報に基づいて質問に答えるときに矛盾する答えを生み出す。
提案するCAREは, LLMに対して, モデル独自の検索機能を用いて, 推論プロセス内での文脈内証拠を明示的に統合するように教える, 新たなネイティブ検索拡張推論フレームワークである。
提案手法では,限定ラベル付きエビデンスデータが必要であり,推論チェーン内の戦略的に検索されたインコンテキストトークンを通じて,検索精度と回答生成性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-09-17T04:28:07Z) - Revisiting LLM Reasoning via Information Bottleneck [57.519119962528166]
大規模言語モデル(LLM)は、最近、検証可能な報酬付き強化学習(RLVR)を通じて推論能力の顕著な進歩を示した。
本稿では,情報ボトルネック(IB)の原理に基づくLLM推論の理論的特徴について述べる。
IB対応推論最適化(IBRO)を提案する。
論文 参考訳(メタデータ) (2025-07-24T13:14:25Z) - Learning to Extract Rational Evidence via Reinforcement Learning for Retrieval-Augmented Generation [37.47571308389908]
Retrieval-Augmented Generation (RAG) はLarge Language Models (LLM) の精度を効果的に向上させる
それまでの手法では、明確な思考なしに証拠を直接抽出し、重要な手がかりをフィルタリングし、一般化に苦慮する危険性がある。
本稿では,(1)検索内容中の潜在的手がかりを明示的に推論し,(2)質問に答えるのに有用なキー手がかりを省略しないよう意識的に抽出することによる合理的証拠の抽出を学習するEvi Omniを提案する。
論文 参考訳(メタデータ) (2025-07-21T13:03:55Z) - Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards [67.86091419220816]
大規模言語モデル(LLM)は複雑な推論において非常に有望である。
一般的な問題は表面的な自己回帰であり、モデルが自身の出力をしっかりと検証できない。
本稿では、RISE(Reinforce Reasoning with Self-Verification)という新しいオンラインRLフレームワークについて紹介する。
論文 参考訳(メタデータ) (2025-05-19T17:59:31Z) - ReVISE: Learning to Refine at Test-Time via Intrinsic Self-Verification [53.80183105328448]
Refine via Intrinsic Self-Verification (ReVISE)は、LLMが自己検証を通じてアウトプットを自己修正できる効率的なフレームワークである。
様々な推論タスクに関する実験により、ReVISEは効率的な自己補正を実現し、推論性能を大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-02-20T13:50:02Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。