Fugu-MT 論文翻訳(概要): RLAP: A Reinforcement Learning Enhanced Adaptive Planning Framework for Multi-step NLP Task Solving

論文の概要: RLAP: A Reinforcement Learning Enhanced Adaptive Planning Framework for Multi-step NLP Task Solving

arxiv url: http://arxiv.org/abs/2505.11893v1
Date: Sat, 17 May 2025 08:06:14 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-20 14:57:10.921136
Title: RLAP: A Reinforcement Learning Enhanced Adaptive Planning Framework for Multi-step NLP Task Solving
Title（参考訳）: RLAP:マルチステップNLPタスク解決のための強化学習強化適応計画フレームワーク
Authors: Zepeng Ding, Dixuan Wang, Ziqin Luo, Guochao Jiang, Deqing Yang, Jiaqing Liang,
Abstract要約: 下流自然言語処理(NLP)タスクにおける大規模言語モデル(LLM)の性能向上のために,多段階計画が広く採用されている。マルチステップNLPタスクをよりよく解くために,RLAP(Reinforcement Learning enhanced Adaptive Planning framework)を提案する。
参考スコア（独自算出の注目度）: 14.11486479935094
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-step planning has been widely employed to enhance the performance of large language models (LLMs) on downstream natural language processing (NLP) tasks, which decomposes the original task into multiple subtasks and guide LLMs to solve them sequentially without additional training. When addressing task instances, existing methods either preset the order of steps or attempt multiple paths at each step. However, these methods overlook instances' linguistic features and rely on the intrinsic planning capabilities of LLMs to evaluate intermediate feedback and then select subtasks, resulting in suboptimal outcomes. To better solve multi-step NLP tasks with LLMs, in this paper we propose a Reinforcement Learning enhanced Adaptive Planning framework (RLAP). In our framework, we model an NLP task as a Markov decision process (MDP) and employ an LLM directly into the environment. In particular, a lightweight Actor model is trained to estimate Q-values for natural language sequences consisting of states and actions through reinforcement learning. Therefore, during sequential planning, the linguistic features of each sequence in the MDP can be taken into account, and the Actor model interacts with the LLM to determine the optimal order of subtasks for each task instance. We apply RLAP on three different types of NLP tasks and conduct extensive experiments on multiple datasets to verify RLAP's effectiveness and robustness.
Abstract（参考訳）: 下流自然言語処理(NLP)タスクにおける大規模言語モデル(LLM)の性能向上のために,多段階計画が広く採用されている。タスクインスタンスに対処する場合、既存のメソッドはステップの順序をプリセットするか、各ステップで複数のパスを試みます。しかし、これらの手法は、インスタンスの言語的特徴を見落とし、中途的なフィードバックを評価し、サブタスクを選択するためにLLMの固有の計画能力に依存し、その結果、最適な結果をもたらす。本稿では,LLMを用いた多段階NLPタスクをよりよく解くために,RLAP(Reinforcement Learning enhanced Adaptive Planning framework)を提案する。本フレームワークでは,NLPタスクをマルコフ決定プロセス(MDP)としてモデル化し,環境に直接LLMを適用する。特に、軽量アクターモデルを用いて、強化学習による状態と行動からなる自然言語列のQ値の推定を訓練する。したがって、逐次計画において、MDPの各シーケンスの言語的特徴を考慮し、アクターモデルがLCMと相互作用し、各タスクインスタンスのサブタスクの最適順序を決定する。 RLAPを3種類のNLPタスクに適用し、複数のデータセット上で広範な実験を行い、RLAPの有効性とロバスト性を検証する。

関連論文リスト

Layer by Layer: Uncovering Where Multi-Task Learning Happens in Instruction-Tuned Large Language Models [22.676688441884465]
タスクの多種多様な配列で訓練済みの大規模言語モデル(LLM)を微調整することが、モデル構築の一般的なアプローチとなっている。本研究では,事前学習したLLMに符号化されたタスク固有情報と,その表現に対する指導指導の効果について検討する。
論文参考訳（メタデータ） (2024-10-25T23:38:28Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。 LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文参考訳（メタデータ） (2024-06-20T13:08:09Z)
Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文参考訳（メタデータ） (2024-06-18T22:57:06Z)
Adaptive Reinforcement Learning Planning: Harnessing Large Language Models for Complex Information Extraction [14.982446379660633]
大規模言語モデル(LLM)に関する既存の研究は、多段階計画により情報抽出タスクを解くことができることを示している。複雑な抽出タスクを分解して段階的に抽出することで,LLMの性能を効果的に向上させることができる。本稿では,LLMに基づく情報抽出のための2段階多段階手法を提案し,多段階計画を実行するためにRLフレームワークを採用する。
論文参考訳（メタデータ） (2024-06-17T12:11:01Z)
From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文参考訳（メタデータ） (2024-05-30T09:42:54Z)
Sub-goal Distillation: A Method to Improve Small Language Agents [21.815417165548187]
大規模言語モデル(LLM)は対話型タスクにおけるエージェントとして大きな可能性を証明している。数十億のパラメータを持つLLMの性能を、はるかに小さな言語モデルに転送する手法を提案する。困難かつマルチタスクな対話型テキスト環境であるScienceWorldでは,基本動作のみに基づく標準的な模倣学習を16.7%超えている。
論文参考訳（メタデータ） (2024-05-04T20:34:06Z)
ADaPT: As-Needed Decomposition and Planning with Language Models [131.063805299796]
As-Needed Decomposition and Planning for Complex Tasks (ADaPT)について紹介する。 ADaPTは、Large Language Modelsがそれらを実行できない場合、複雑なサブタスクを明示的に計画し、分解する。以上の結果から,ADaPTは強いベースラインを確立した。
論文参考訳（メタデータ） (2023-11-08T17:59:15Z)
ISR-LLM: Iterative Self-Refined Large Language Model for Long-Horizon Sequential Task Planning [7.701407633867452]
大規模言語モデル(LLM)は、タスクに依存しないプランナとして一般化性を高める可能性を提供する。 ISR-LLMは,反復的な自己複製プロセスを通じてLCMに基づく計画を改善する新しいフレームワークである。 ISR-LLM は現状の LLM ベースのプランナに比べてタスク達成率を大幅に向上できることを示す。
論文参考訳（メタデータ） (2023-08-26T01:31:35Z)
Learning to Plan with Natural Language [111.76828049344839]
大規模言語モデル(LLM)は、様々な基本自然言語タスクにおいて顕著な性能を示している。複雑なタスクを完了するためには、ステップごとに特定のソリューションを生成するためにLCMをガイドするタスクの計画が必要です。本研究では,(1)第1学習課題計画フェーズにおいて,LCMが学習エラーフィードバックから導出するように促した新たなステップバイステップのソリューションと行動指示を用いてタスク計画を反復的に更新する,という2つの段階を含む学習計画手法を提案する。
論文参考訳（メタデータ） (2023-04-20T17:09:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。