論文の概要: Learning to Reason for Factuality
- arxiv url: http://arxiv.org/abs/2508.05618v1
- Date: Thu, 07 Aug 2025 17:57:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 21:11:55.692964
- Title: Learning to Reason for Factuality
- Title(参考訳): ファクチュアリティのための推論の学習
- Authors: Xilun Chen, Ilia Kulikov, Vincent-Pierre Berges, Barlas Oğuz, Rulin Shao, Gargi Ghosh, Jason Weston, Wen-tau Yih,
- Abstract要約: 本稿では,現実的精度,応答詳細度,応答関連度を同時に考慮した新たな報酬関数を提案する。
本モデルでは,幻覚率の平均値が23.1ポイント,回答詳細度が23%増加し,全体の応答効率が低下しない。
- 参考スコア(独自算出の注目度): 48.08503522255537
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reasoning Large Language Models (R-LLMs) have significantly advanced complex reasoning tasks but often struggle with factuality, generating substantially more hallucinations than their non-reasoning counterparts on long-form factuality benchmarks. However, extending online Reinforcement Learning (RL), a key component in recent R-LLM advancements, to the long-form factuality setting poses several unique challenges due to the lack of reliable verification methods. Previous work has utilized automatic factuality evaluation frameworks such as FActScore to curate preference data in the offline RL setting, yet we find that directly leveraging such methods as the reward in online RL leads to reward hacking in multiple ways, such as producing less detailed or relevant responses. We propose a novel reward function that simultaneously considers the factual precision, response detail level, and answer relevance, and applies online RL to learn high quality factual reasoning. Evaluated on six long-form factuality benchmarks, our factual reasoning model achieves an average reduction of 23.1 percentage points in hallucination rate, a 23% increase in answer detail level, and no degradation in the overall response helpfulness.
- Abstract(参考訳): Reasoning Large Language Models (R-LLMs) は複雑な推論タスクを大幅に進歩させるが、しばしば事実性に苦しむ。
しかし、最近のR-LLM進歩の重要な要素であるオンライン強化学習(RL)を長期的事実性設定に拡張することは、信頼性の高い検証方法が欠如していることから、いくつかのユニークな課題をもたらす。
これまで、FActScoreなどの自動事実評価フレームワークを使用してオフラインのRL設定で嗜好データをキュレートしてきたが、オンラインRLにおける報奨などの手法を直接活用することで、より詳細や関連性の高い回答が得られないなど、様々な方法で報奨ハッキングが行われていることが判明した。
本稿では, 事実精度, 応答詳細度, 回答関連度を同時に考慮し, オンラインRLを用いて高品質な事実推論を学習する新たな報酬関数を提案する。
6つの長文事実性ベンチマークで評価した結果,本モデルでは,幻覚率の平均23.1ポイント,回答詳細度23%増加,全体の応答支援力の低下が認められなかった。
関連論文リスト
- Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective [82.24301452333577]
強化学習(RL)は,大規模言語モデル(LLM)推論を改善するための有望なアプローチとして登場した。
重要な課題は、様々な推論領域にまたがる信頼性とスケーラブルなRL報酬信号の欠如である。
我々は,6つの推論領域にまたがる92Kの検証可能な例をキュレートしたRL推論コーパスであるGuruを紹介する。
論文 参考訳(メタデータ) (2025-06-17T20:24:00Z) - Learning What Reinforcement Learning Can't: Interleaved Online Fine-Tuning for Hardest Questions [28.962415274754537]
大規模言語モデル(LLM)推論は、強化学習(RL)を通して計画や自己回帰のような洗練された行動が現れることを示した。
textbfReLIFT (textbfReinforcement textbfL textbfInterleaved with Online textbfFine-textbfTuning)
ReLIFTでは、モデルを主にRLを使ってトレーニングするが、難しい問題に遭遇すると、ファインチューニングのための高品質なソリューションが収集され、トレーニングプロセスが交互に行われる。
論文 参考訳(メタデータ) (2025-06-09T08:11:20Z) - The Hallucination Dilemma: Factuality-Aware Reinforcement Learning for Large Reasoning Models [63.98194996746229]
大規模言語モデル(LLM)は、強化学習(RL)最適化を通じて、推論タスクにおいて著しく進歩している。
しかし、推論指向RL微調整は幻覚の頻度を著しく高めている。
本稿では,明示的事実性検証を取り入れた革新的なRL微調整アルゴリズムであるFSPOを提案する。
論文 参考訳(メタデータ) (2025-05-30T14:23:32Z) - Reinforced Informativeness Optimization for Long-Form Retrieval-Augmented Generation [77.10390725623125]
LFQA(Long-form Question answering)は、大規模言語モデルに固有の課題を提示する。
RioRAGは、強化情報性最適化を通じて長めのRAGを進化させる新しい強化学習フレームワークである。
論文 参考訳(メタデータ) (2025-05-27T07:34:41Z) - AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning [50.02117478165099]
大規模強化学習は, 強大・中小モデルの推論能力を大幅に向上させることができることを示す。
まずは算数のみのプロンプト、次にコードのみのプロンプトのトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-22T08:50:47Z) - VeriFact: Enhancing Long-Form Factuality Evaluation with Refined Fact Extraction and Reference Facts [6.810019560977178]
本稿では,事実抽出の促進を目的とした実感評価フレームワークであるVeriFactを紹介する。
また、FactRBenchは、長文モデル応答における精度とリコールの両方を評価するベンチマークである。
実証的な評価は、VeriFactは事実の完全性を著しく向上させ、重要な関係情報を持つ複雑な事実を保存することを示している。
論文 参考訳(メタデータ) (2025-05-14T18:02:37Z) - Concise Reasoning via Reinforcement Learning [13.657506042120167]
我々は強化学習(RL)の中核的原則を再考する。
簡潔さと正確さの自然な相関関係を明らかにする。
RLトレーニングの二次段階の導入は、非常に小さな問題セットを用いて、思考の連鎖を著しく減少させることが示される。
論文 参考訳(メタデータ) (2025-04-07T15:35:54Z) - A Long Way to Go: Investigating Length Correlations in RLHF [59.49656695716066]
本稿では, 応答長の最適化がRLHFの重要な要因であることを示す。
報酬の改善は、他の機能ではなく、レスポンス長の増加によって大きく引き起こされると思います。
純粋に長さベースの報酬でさえ、教師付き微調整モデルよりも下流のRLHFの改善を再現する。
論文 参考訳(メタデータ) (2023-10-05T17:38:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。