論文の概要: LeTS: Learning to Think-and-Search via Process-and-Outcome Reward Hybridization
- arxiv url: http://arxiv.org/abs/2505.17447v1
- Date: Fri, 23 May 2025 04:04:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.804762
- Title: LeTS: Learning to Think-and-Search via Process-and-Outcome Reward Hybridization
- Title(参考訳): LeTS: プロセス・アンド・アウトカム・リワード・ハイブリダイゼーションによる思考と探索の学習
- Authors: Qi Zhang, Shouqing Yang, Lirong Gao, Hao Chen, Xiaomeng Hu, Jinglei Chen, Jiexiang Wang, Sheng Guo, Bo Zheng, Haobo Wang, Junbo Zhao,
- Abstract要約: 大規模言語モデル(LLM)は、推論において印象的な能力を示している。
近年の研究では、検索結果教師付き強化学習(RL)アプローチを通じて、推論能力を検索強化世代(RAG)領域に統合することに焦点を当てている。
我々は、段階的なプロセス報酬と結果に基づく報酬をRAGのための現在のRL手法にハイブリダイズする新しいフレームワークであるLearning to Think-and-Search(LeTS)を提案する。
- 参考スコア(独自算出の注目度): 30.95342819013663
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated impressive capabilities in reasoning with the emergence of reasoning models like OpenAI-o1 and DeepSeek-R1. Recent research focuses on integrating reasoning capabilities into the realm of retrieval-augmented generation (RAG) via outcome-supervised reinforcement learning (RL) approaches, while the correctness of intermediate think-and-search steps is usually neglected. To address this issue, we design a process-level reward module to mitigate the unawareness of intermediate reasoning steps in outcome-level supervision without additional annotation. Grounded on this, we propose Learning to Think-and-Search (LeTS), a novel framework that hybridizes stepwise process reward and outcome-based reward to current RL methods for RAG. Extensive experiments demonstrate the generalization and inference efficiency of LeTS across various RAG benchmarks. In addition, these results reveal the potential of process- and outcome-level reward hybridization in boosting LLMs' reasoning ability via RL under other scenarios. The code will be released soon.
- Abstract(参考訳): 大規模言語モデル(LLM)は、OpenAI-o1やDeepSeek-R1といった推論モデルの出現にともなって、驚くべき機能を示している。
近年の研究では、検索結果教師付き強化学習(RL)アプローチによる検索強化世代(RAG)の領域への推論機能の統合に焦点が当てられているが、中間思考・探索ステップの正しさは通常無視されている。
この問題に対処するため、我々は、追加のアノテーションを使わずに、結果レベルの監視における中間的推論ステップの無意識を緩和するプロセスレベルの報酬モジュールを設計する。
そこで我々は,段階的なプロセス報酬と結果に基づく報酬をRAGの現在のRL手法にハイブリダイズする新しいフレームワークであるLearning to Think-and-Search(LeTS)を提案する。
広範囲な実験は、様々なRAGベンチマークにおけるLeTSの一般化と推論効率を実証している。
さらに, これらの結果から, プロセスレベルと結果レベルの報酬ハイブリッド化が, 他のシナリオ下でのLLによるLLMの推論能力を高める可能性を明らかにした。
コードはまもなくリリースされる。
関連論文リスト
- Improving RL Exploration for LLM Reasoning through Retrospective Replay [45.00643118030677]
本稿では,Retrospective Replay-based Reinforcement Learning (RRL) という新しいアルゴリズムを提案する。
RRLにより、モデルが早期に特定された有望な状態を再検討し、探索の効率性と有効性を向上させることができる。
論文 参考訳(メタデータ) (2025-04-19T17:40:04Z) - OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。
本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。
OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。
本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。
本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2025-01-31T02:39:07Z) - RAG-Star: Enhancing Deliberative Reasoning with Retrieval Augmented Verification and Refinement [85.08223786819532]
既存の大規模言語モデル(LLM)は、例外的な問題解決能力を示すが、複雑な推論タスクに苦労する可能性がある。
検索情報を統合した新しいRAG手法である textbfRAG-Star を提案する。
Llama-3.1-8B-Instruct と GPT-4o を併用した実験により,RAG-Star は従来のRAG と推理法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2024-12-17T13:05:36Z) - Long-Context LLMs Meet RAG: Overcoming Challenges for Long Inputs in RAG [36.754491649652664]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)に外部の知識ソースを利用する権限を与える。
本稿では, 回収した「ハードネガティブ」の有害な影響について考察する。
これを緩和し、長文LLMベースのRAGの堅牢性を高めるために、トレーニングフリーとトレーニングベースの両方のアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-08T12:30:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。