論文の概要: RLAP: A Reinforcement Learning Enhanced Adaptive Planning Framework for Multi-step NLP Task Solving
- arxiv url: http://arxiv.org/abs/2505.11893v1
- Date: Sat, 17 May 2025 08:06:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.921136
- Title: RLAP: A Reinforcement Learning Enhanced Adaptive Planning Framework for Multi-step NLP Task Solving
- Title(参考訳): RLAP:マルチステップNLPタスク解決のための強化学習強化適応計画フレームワーク
- Authors: Zepeng Ding, Dixuan Wang, Ziqin Luo, Guochao Jiang, Deqing Yang, Jiaqing Liang,
- Abstract要約: 下流自然言語処理(NLP)タスクにおける大規模言語モデル(LLM)の性能向上のために,多段階計画が広く採用されている。
マルチステップNLPタスクをよりよく解くために,RLAP(Reinforcement Learning enhanced Adaptive Planning framework)を提案する。
- 参考スコア(独自算出の注目度): 14.11486479935094
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-step planning has been widely employed to enhance the performance of large language models (LLMs) on downstream natural language processing (NLP) tasks, which decomposes the original task into multiple subtasks and guide LLMs to solve them sequentially without additional training. When addressing task instances, existing methods either preset the order of steps or attempt multiple paths at each step. However, these methods overlook instances' linguistic features and rely on the intrinsic planning capabilities of LLMs to evaluate intermediate feedback and then select subtasks, resulting in suboptimal outcomes. To better solve multi-step NLP tasks with LLMs, in this paper we propose a Reinforcement Learning enhanced Adaptive Planning framework (RLAP). In our framework, we model an NLP task as a Markov decision process (MDP) and employ an LLM directly into the environment. In particular, a lightweight Actor model is trained to estimate Q-values for natural language sequences consisting of states and actions through reinforcement learning. Therefore, during sequential planning, the linguistic features of each sequence in the MDP can be taken into account, and the Actor model interacts with the LLM to determine the optimal order of subtasks for each task instance. We apply RLAP on three different types of NLP tasks and conduct extensive experiments on multiple datasets to verify RLAP's effectiveness and robustness.
- Abstract(参考訳): 下流自然言語処理(NLP)タスクにおける大規模言語モデル(LLM)の性能向上のために,多段階計画が広く採用されている。
タスクインスタンスに対処する場合、既存のメソッドはステップの順序をプリセットするか、各ステップで複数のパスを試みます。
しかし、これらの手法は、インスタンスの言語的特徴を見落とし、中途的なフィードバックを評価し、サブタスクを選択するためにLLMの固有の計画能力に依存し、その結果、最適な結果をもたらす。
本稿では,LLMを用いた多段階NLPタスクをよりよく解くために,RLAP(Reinforcement Learning enhanced Adaptive Planning framework)を提案する。
本フレームワークでは,NLPタスクをマルコフ決定プロセス(MDP)としてモデル化し,環境に直接LLMを適用する。
特に、軽量アクターモデルを用いて、強化学習による状態と行動からなる自然言語列のQ値の推定を訓練する。
したがって、逐次計画において、MDPの各シーケンスの言語的特徴を考慮し、アクターモデルがLCMと相互作用し、各タスクインスタンスのサブタスクの最適順序を決定する。
RLAPを3種類のNLPタスクに適用し、複数のデータセット上で広範な実験を行い、RLAPの有効性とロバスト性を検証する。
関連論文リスト
- Layer by Layer: Uncovering Where Multi-Task Learning Happens in Instruction-Tuned Large Language Models [22.676688441884465]
タスクの多種多様な配列で訓練済みの大規模言語モデル(LLM)を微調整することが、モデル構築の一般的なアプローチとなっている。
本研究では,事前学習したLLMに符号化されたタスク固有情報と,その表現に対する指導指導の効果について検討する。
論文 参考訳(メタデータ) (2024-10-25T23:38:28Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。
このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。
我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文 参考訳(メタデータ) (2024-05-30T09:42:54Z) - ISR-LLM: Iterative Self-Refined Large Language Model for Long-Horizon
Sequential Task Planning [7.701407633867452]
大規模言語モデル(LLM)は、タスクに依存しないプランナとして一般化性を高める可能性を提供する。
ISR-LLMは,反復的な自己複製プロセスを通じてLCMに基づく計画を改善する新しいフレームワークである。
ISR-LLM は現状の LLM ベースのプランナに比べてタスク達成率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-08-26T01:31:35Z) - Learning to Plan with Natural Language [111.76828049344839]
大規模言語モデル(LLM)は、様々な基本自然言語タスクにおいて顕著な性能を示している。
複雑なタスクを完了するためには、ステップごとに特定のソリューションを生成するためにLCMをガイドするタスクの計画が必要です。
本研究では,(1)第1学習課題計画フェーズにおいて,LCMが学習エラーフィードバックから導出するように促した新たなステップバイステップのソリューションと行動指示を用いてタスク計画を反復的に更新する,という2つの段階を含む学習計画手法を提案する。
論文 参考訳(メタデータ) (2023-04-20T17:09:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。