論文の概要: Prompt-R1: Collaborative Automatic Prompting Framework via End-to-end Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.01016v1
- Date: Sun, 02 Nov 2025 17:11:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.03036
- Title: Prompt-R1: Collaborative Automatic Prompting Framework via End-to-end Reinforcement Learning
- Title(参考訳): Prompt-R1: エンドツーエンド強化学習による協調型自動プロンプトフレームワーク
- Authors: Wenjin Liu, Haoran Luo, Xueyuan Lin, Haoming Liu, Tiesunlong Shen, Jiapu Wang, Rui Mao, Erik Cambria,
- Abstract要約: 本稿では,小規模言語モデルを用いて大規模言語モデルと協調するエンドツーエンド強化学習フレームワークPrompt-R1を提案する。
二重制約の報酬は、正確性、生成品質、推論精度を最適化するために設計されている。
Prompt-R1はタスク間でベースラインモデルよりも大幅に優れている。
- 参考スコア(独自算出の注目度): 34.70213312250216
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, advanced large language models (LLMs) have emerged at an increasingly rapid pace. However, when faced with complex problems, most users are often unable to provide accurate and effective prompts to interact with LLMs, thus limiting the performance of LLMs. To address this challenge, we propose Prompt-R1, an end-to-end reinforcement learning framework that uses a small-scale LLM to collaborate with large-scale LLMs, replacing user interaction to solve problems better. This collaboration is cast as a multi-turn prompt interaction, where the small-scale LLM thinks and generates prompts, and the large-scale LLM performs complex reasoning. A dual-constrained reward is designed to optimize for correctness, generation quality, and reasoning accuracy. Prompt-R1 provides a plug-and-play framework that supports both inference and training with various large-scale LLMs. Experiments on multiple public datasets show that Prompt-R1 significantly outperforms baseline models across tasks. Our code is publicly available at https://github.com/QwenQKing/Prompt-R1.
- Abstract(参考訳): 近年,先進的な大規模言語モデル (LLM) が急速に普及している。
しかし、複雑な問題に直面した場合、ほとんどのユーザはLLMと対話するための正確で効果的なプロンプトを提供できないため、LLMの性能は制限される。
この課題に対処するため,我々は,小規模LLMを用いて大規模LLMと協調するエンドツーエンド強化学習フレームワークであるPrompt-R1を提案する。
このコラボレーションはマルチターンプロンプトの相互作用としてキャストされ、小規模のLLMはプロンプトを考え、生成し、大規模のLLMは複雑な推論を行う。
二重制約の報酬は、正確性、生成品質、推論精度を最適化するために設計されている。
Prompt-R1は様々な大規模LCMによる推論とトレーニングをサポートするプラグイン・アンド・プレイのフレームワークを提供する。
複数の公開データセットの実験によると、Prompt-R1はタスク全体でベースラインモデルを大幅に上回っている。
私たちのコードはhttps://github.com/QwenQKing/Prompt-R1.comで公開されています。
関連論文リスト
- Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [68.29746557968107]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - Enabling Intelligent Interactions between an Agent and an LLM: A Reinforcement Learning Approach [31.6589518077397]
大規模言語モデル(LLM)は、大量のテキストデータセットから得られた膨大な量の世界の知識を符号化する。
LLMは、高レベルな命令を提供することで、複雑なシーケンシャルな意思決定タスクを解決するための実施エージェントを支援することができる。
本研究では,高レベルの命令に対してLLMを問合せする必要がある場合に学習する強化学習ベースのアプローチである When2Ask を提案する。
論文 参考訳(メタデータ) (2023-06-06T11:49:09Z) - Low-code LLM: Graphical User Interface over Large Language Models [115.08718239772107]
本稿では,人間-LLMインタラクションフレームワークであるLow-code LLMを紹介する。
より制御可能で安定した応答を実現するために、6種類のシンプルなローコードビジュアルプログラミングインタラクションを組み込んでいる。
ユーザフレンドリなインタラクション,制御可能な生成,広い適用性という,低コード LLM の3つの利点を強調した。
論文 参考訳(メタデータ) (2023-04-17T09:27:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。