論文の概要: Prompt reinforcing for long-term planning of large language models
- arxiv url: http://arxiv.org/abs/2510.05921v1
- Date: Tue, 07 Oct 2025 13:30:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.269753
- Title: Prompt reinforcing for long-term planning of large language models
- Title(参考訳): 大規模言語モデルの長期計画のためのプロンプト強化
- Authors: Hsien-Chin Lin, Benjamin Matthias Ruppik, Carel van Niekerk, Chia-Hao Shen, Michael Heck, Nurul Lubis, Renato Vukovic, Shutong Feng, Milica Gašić,
- Abstract要約: 大規模言語モデル(LLM)は、幅広い自然言語処理タスクにおいて顕著な成功を収めた。
しかし、それらは多ターン相互作用において準最適である。
本稿では,強化学習にインスパイアされた迅速な最適化フレームワークを提案する。
- 参考スコア(独自算出の注目度): 5.430033135567964
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models (LLMs) have achieved remarkable success in a wide range of natural language processing tasks and can be adapted through prompting. However, they remain suboptimal in multi-turn interactions, often relying on incorrect early assumptions and failing to track user goals over time, which makes such tasks particularly challenging. Prior works in dialogue systems have shown that long-term planning is essential for handling interactive tasks. In this work, we propose a prompt optimisation framework inspired by reinforcement learning, which enables such planning to take place by only modifying the task instruction prompt of the LLM-based agent. By generating turn-by-turn feedback and leveraging experience replay for prompt rewriting, our proposed method shows significant improvement in multi-turn tasks such as text-to-SQL and task-oriented dialogue. Moreover, it generalises across different LLM-based agents and can leverage diverse LLMs as meta-prompting agents. This warrants future research in reinforcement learning-inspired parameter-free optimisation methods.
- Abstract(参考訳): 大規模言語モデル(LLM)は、幅広い自然言語処理タスクにおいて顕著な成功を収め、プロンプトによって適応することができる。
しかし、それらはマルチターンインタラクションの亜最適であり、しばしば誤った初期仮定に依存し、時間の経過とともにユーザの目標を追跡できないため、特に難しい。
対話システムにおける先行研究は、対話的なタスクを扱うためには長期計画が不可欠であることを示している。
本研究では,LLMエージェントのタスク命令プロンプトのみを変更することで,強化学習にインスパイアされたプロンプト最適化フレームワークを提案する。
ターンバイターンのフィードバックを生成し,即時書き直しに経験リプレイを活用することで,テキスト・トゥ・SQLやタスク指向対話といったマルチターンタスクの大幅な改善を示す。
さらに、異なるLSMベースのエージェントにまたがって一般化し、メタプロンプティングエージェントとして様々なLSMを利用することができる。
これにより、強化学習によるパラメータフリー最適化手法の今後の研究が保証される。
関連論文リスト
- Diverse Prompts: Illuminating the Prompt Space of Large Language Models with MAP-Elites [2.529560284922988]
この研究は、文脈自由文法(CFG)とMAP-Elitesアルゴリズムを組み合わせてプロンプト空間を探索する進化的アプローチを導入する。
提案手法は品質と多様性を優先し,高性能で構造的に異なるプロンプトを生成する。
論文 参考訳(メタデータ) (2025-04-19T17:50:34Z) - Conversational Planning for Personal Plans [4.490065350323821]
大きな言語モデル(LLM)は、現実の目標や完成までに長い時間を要するタスクを支援するために、ますます使われています。
本研究では,LLMがエージェントの次のマクロアクションを決定するメタコントローラとして機能する新しいアーキテクチャを探索する。
このパラダイムが、学術的・非学術的なタスクの指導から、個人の健康計画のための会話型コーチングまで、どのようなシナリオに応用できるかを示す。
論文 参考訳(メタデータ) (2025-02-26T19:04:26Z) - Interactive and Expressive Code-Augmented Planning with Large Language Models [62.799579304821826]
大きな言語モデル(LLM)は、常識的推論と対話的な意思決定において強力な能力を示す。
近年,制御フローなどのコード・アジャセント技術を用いてLCM出力を構造化し,計画性能を向上させる技術が提案されている。
完全コード表現で動的なLEM計画手法であるREPL-Planを提案する。
論文 参考訳(メタデータ) (2024-11-21T04:23:17Z) - MAPO: Boosting Large Language Model Performance with Model-Adaptive Prompt Optimization [73.7779735046424]
異なるプロンプトを異なるLarge Language Models (LLM) に適応させることで,NLP の様々な下流タスクにまたがる機能の向上が期待できる。
次に、下流タスクにおける各LLMに対して、元のプロンプトを最適化するモデル適応プロンプト(MAPO)手法を提案する。
論文 参考訳(メタデータ) (2024-07-04T18:39:59Z) - TemPrompt: Multi-Task Prompt Learning for Temporal Relation Extraction in RAG-based Crowdsourcing Systems [21.312052922118585]
時間的関係抽出(TRE)は、出来事や行動の進化を把握し、関連するタスクのワークフローを形成することを目的としている。
本稿では,TRE(TemPrompt)のためのマルチタスク・プロンプト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-21T01:52:37Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文 参考訳(メタデータ) (2023-11-09T18:45:16Z) - Self-Explanation Prompting Improves Dialogue Understanding in Large
Language Models [52.24756457516834]
大規模言語モデル(LLM)の理解能力を高めるための新たな「自己説明(Self-Explanation)」を提案する。
このタスクに依存しないアプローチでは、タスク実行前の各対話発話を分析し、様々な対話中心のタスクのパフォーマンスを向上させる必要がある。
6つのベンチマークデータセットによる実験結果から,本手法は他のゼロショットプロンプトよりも一貫して優れており,数ショットプロンプトの有効性を超えていることが明らかとなった。
論文 参考訳(メタデータ) (2023-09-22T15:41:34Z) - OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。
本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-05-24T10:08:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。