論文の概要: KunLunBaizeRAG: Reinforcement Learning Driven Inference Performance Leap for Large Language Models
- arxiv url: http://arxiv.org/abs/2506.19466v1
- Date: Tue, 24 Jun 2025 09:48:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.577149
- Title: KunLunBaizeRAG: Reinforcement Learning Driven Inference Performance Leap for Large Language Models
- Title(参考訳): KunLunBaizeRAG: 大規模言語モデルのための強化学習駆動推論性能向上
- Authors: Cheng Li, Jiexiong Liu, Yixuan Chen, Qihang Zhou, KunLun Meta,
- Abstract要約: KunLunBaizeRAGは、複雑なマルチホップ質問応答タスクにおける大規模言語モデル(LLM)の推論能力を高めるために設計された強化学習駆動推論フレームワークである。
主なイノベーションとしては、RAG駆動のReasoning Alignment(RDRA)メカニズム、検索-Think Iterative Enhancement(STIE)メカニズム、Network-Local Intelligent Routing(NLR)メカニズム、プログレッシブハイブリッドトレーニング戦略などがある。
- 参考スコア(独自算出の注目度): 4.637288682081713
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces KunLunBaizeRAG, a reinforcement learning-driven reasoning framework designed to enhance the reasoning capabilities of large language models (LLMs) in complex multi-hop question-answering tasks. The framework addresses key limitations of traditional RAG, such as retrieval drift, information redundancy, and strategy rigidity. Key innovations include the RAG-driven Reasoning Alignment (RDRA) mechanism, the Search-Think Iterative Enhancement (STIE) mechanism, the Network-Local Intelligent Routing (NLR) mechanism, and a progressive hybrid training strategy. Experimental results demonstrate significant improvements in exact match (EM) and LLM-judged score (LJ) across four benchmarks, highlighting the framework's robustness and effectiveness in complex reasoning scenarios.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)の推論能力を高めるための強化学習駆動推論フレームワークであるKunLunBaizeRAGを紹介する。
このフレームワークは、検索ドリフト、情報冗長性、戦略剛性といった従来のRAGの重要な制限に対処する。
主なイノベーションとしては、RAG駆動のReasoning Alignment(RDRA)メカニズム、検索-Think Iterative Enhancement(STIE)メカニズム、Network-Local Intelligent Routing(NLR)メカニズム、プログレッシブハイブリッドトレーニング戦略などがある。
実験の結果,4つのベンチマークにおいて,EMとLLM-judgedスコア(LJ)が大幅に改善され,複雑な推論シナリオにおけるフレームワークの堅牢性と有効性が強調された。
関連論文リスト
- MeRF: Motivation-enhanced Reinforcement Finetuning for Large Reasoning Models [95.6332110724999]
MeRF(Motivation-enhanced Reinforcement Finetuning)は、大規模言語モデル(LLM)の強化学習を強化する直感的かつ効果的な手法である。
MeRFは報酬仕様を直接プロンプトに注入し、最適化目標を認識して応答を改善するためのコンテキスト内モチベーションとして機能する。
Knights and Knaves(K&K)論理パズル推論ベンチマークに関する実証的な評価は、texttMeRFがベースラインよりもかなりの性能向上を達成することを示した。
論文 参考訳(メタデータ) (2025-06-23T10:37:57Z) - SHARP: Synthesizing High-quality Aligned Reasoning Problems for Large Reasoning Models Reinforcement Learning [19.457621121430464]
STEM領域での強化学習を伴う大規模推論モデル(LRM)の訓練は、高品質で多様性があり、検証可能な問題セットの不足によって妨げられる。
検証可能な報酬(RLVR)を用いたLRM強化学習における高品質アラインド推論問題の一元化手法であるSHARPを導入する。
我々は、最先端のLEMを活用して、難解なSTEM質問を推論し、検証し、次に、強化学習ループを使用して、検証可能な報酬信号によってモデルの推論を洗練する。
論文 参考訳(メタデータ) (2025-05-20T09:54:42Z) - RAIDEN-R1: Improving Role-awareness of LLMs via GRPO with Verifiable Reward [7.9399136525335585]
RAIDEN-R1は、VRAR(Verifiable Role-Awareness Reward)を統合した新しい強化学習フレームワークである
マルチLLMコラボレーションにより,高品質で役割対応のChain-of-Thoughtデータセットを構築した。
RAIDENベンチマークの実験では、RAIDEN-R1の優位性が示されている。
論文 参考訳(メタデータ) (2025-05-15T12:22:10Z) - Improving Multilingual Retrieval-Augmented Language Models through Dialectic Reasoning Argumentations [65.11348389219887]
そこで,Dialectic-RAG(Dialectic-RAG, DRAG)を提案する。
我々は、文脈内学習戦略と、より小さなモデルをインストラクションするための実演の構築の両方において、我々のフレームワークが与える影響を示す。
論文 参考訳(メタデータ) (2025-04-07T06:55:15Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - AirRAG: Activating Intrinsic Reasoning for Retrieval Augmented Generation using Tree-based Search [4.4907551923591695]
本稿では,システム解析と効率的な推論行動を統合したRAGにおける新しい思考パターンを提案する。
具体的には,本手法は5つの基本的な推論動作を設計し,より広い木に基づく推論空間に拡張する。
実験により,複雑な質問応答データセットに対して,AirRAGの有効性を示す。
論文 参考訳(メタデータ) (2025-01-17T09:16:13Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - StructRAG: Boosting Knowledge Intensive Reasoning of LLMs via Inference-time Hybrid Information Structurization [94.31508613367296]
Retrieval-augmented Generation(RAG)は、大規模言語モデル(LLM)を効果的に強化する鍵となる手段である。
本稿では,手前のタスクに対して最適な構造型を識別し,元の文書をこの構造化形式に再構成し,その結果に基づいて回答を推測するStructRAGを提案する。
実験の結果、StructRAGは最先端のパフォーマンスを実現し、特に挑戦的なシナリオに優れていた。
論文 参考訳(メタデータ) (2024-10-11T13:52:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。