論文の概要: Knowledge-to-Verification: Exploring RLVR for LLMs in Knowledge-Intensive Domains
- arxiv url: http://arxiv.org/abs/2605.18261v1
- Date: Mon, 18 May 2026 11:59:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.51009
- Title: Knowledge-to-Verification: Exploring RLVR for LLMs in Knowledge-Intensive Domains
- Title(参考訳): 知識と検証:知識集約型ドメインにおけるLLMのためのRLVR探索
- Authors: Zhonghang Yuan, Zhefan Wang, Fang Hu, Zihong Chen, Jinzhe Li, Gang Li, Jie Ying, Huanjun Kong, Songyang Zhang, Nanqing Dong,
- Abstract要約: 検証可能な報酬付き強化学習(RLVR)は,大規模言語モデルの推論能力を高める有望な可能性を示している。
自動検証データ合成により,RLVRを知識集約領域に拡張するフレームワークであるK2V(Knowledge-to-Verification)を提案する。
- 参考スコア(独自算出の注目度): 30.599618206614124
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) has demonstrated promising potential to enhance the reasoning capabilities of large language models (LLMs) in domains such as mathematics and coding. However, its applications on knowledge-intensive domains have not been effectively explored due to the scarcity of high-quality verifiable data. Furthermore, current RLVR focuses solely on the correctness of final answers, leading to the limitations of flawed reasoning and sparse reward signals. In this work, we propose Knowledge-to-Verification (K2V), a framework that extends RLVR to knowledge-intensive domains through automated verifiable data synthesis, while enabling verification of the LLM's reasoning process. Extensive experiments demonstrate that K2V enhances the reasoning of LLM in knowledge-intensive domains without significantly compromising the model's general capabilities. This study also suggests that integrating automated data synthesis with reasoning verification is a promising direction to enhance model capabilities in these broader domains. Code is available at https://github.com/SeedScientist/K2V.
- Abstract(参考訳): 検証可能な報酬付き強化学習(RLVR)は、数学やコーディングといった分野における大規模言語モデル(LLM)の推論能力を高める有望な可能性を実証している。
しかし、その知識集約ドメインへの応用は、高品質な検証可能なデータの不足のため、効果的に検討されていない。
さらに、現在のRLVRは最終回答の正しさにのみ焦点を合わせており、欠点のある推論とスパース報酬信号の制限につながっている。
本研究では,LLMの推論プロセスの検証を可能としつつ,自動検証データ合成により,RLVRを知識集約領域に拡張するフレームワークであるK2Vを提案する。
実験の結果,K2V は知識集約領域における LLM の推論を,モデルの汎用能力を著しく損なうことなく促進することを示した。
本研究は,これらの領域において,自動データ合成と推論検証を統合することが,モデル機能の向上に有望な方向であることを示唆している。
コードはhttps://github.com/SeedScientist/K2Vで入手できる。
関連論文リスト
- Reinforcement Learning with Verifiable Rewards Implicitly Incentivizes Correct Reasoning in Base LLMs [35.27561531876348]
本稿では,LLVRを用いた強化学習が大規模言語モデル(LLM)に及ぼす影響を体系的に検討する。
RLVRは数学的タスクとコーディングタスクの両方の推論境界を拡張可能であることを示す。
本稿では,RLVRのインセンティブメカニズムを説明する理論的枠組みについて述べる。
論文 参考訳(メタデータ) (2025-06-17T07:06:56Z) - General-Reasoner: Advancing LLM Reasoning Across All Domains [64.70599911897595]
強化学習(RL)は近年,大規模言語モデル(LLM)の推論能力の向上に強い可能性を示している。
本稿では,多分野にわたるLSM推論能力の向上を目的とした,新たなトレーニングパラダイムであるGeneral-Reasonerを提案する。
私たちは一連のモデルをトレーニングし、物理学、化学、金融、電子工学など幅広い分野をカバーする幅広いデータセットでそれらを評価します。
論文 参考訳(メタデータ) (2025-05-20T17:41:33Z) - Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains [92.36624674516553]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の数学的推論と符号化性能の向上に成功している。
本稿では,医学,化学,心理学,経済学,教育など,さまざまな現実世界領域におけるRLVRの有効性と拡張性について検討する。
我々は,2値検証による制限を克服するために,ソフトなモデルに基づく報酬信号を生成する生成的スコアリング手法を利用する。
論文 参考訳(メタデータ) (2025-03-31T08:22:49Z) - Leveraging Large Language Models for Explainable Activity Recognition in Smart Homes: A Critical Evaluation [0.29998889086656577]
XAIは、スマートホームにおけるセンサによる日常生活活動(ADL)認識に適用されている。
本稿では,XAIとLarge Language Models(LLM)を組み合わせたセンサを用いたADL認識の可能性について検討する。
論文 参考訳(メタデータ) (2025-03-20T18:23:03Z) - Large Language Model Enhanced Knowledge Representation Learning: A Survey [15.602891714371342]
知識表現学習(KRL)は、知識グラフから下流タスクへの記号的知識の適用を可能にするために重要である。
この研究は、これらの進化する領域における新たな研究方向を同時に特定しながら、下流のタスクの広範な概要を提供する。
論文 参考訳(メタデータ) (2024-07-01T03:37:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。