論文の概要: MultiPrompter: Cooperative Prompt Optimization with Multi-Agent
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2310.16730v1
- Date: Wed, 25 Oct 2023 15:58:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 13:52:31.811119
- Title: MultiPrompter: Cooperative Prompt Optimization with Multi-Agent
Reinforcement Learning
- Title(参考訳): multiprompter: マルチエージェント強化学習による協調的プロンプト最適化
- Authors: Dong-Ki Kim, Sungryull Sohn, Lajanugen Logeswaran, Dongsub Shim,
Honglak Lee
- Abstract要約: MultiPrompterは、プロンプト最適化をプロンプト間の協調ゲームと見なす新しいフレームワークである。
我々は,MultiPrompterが問題のサイズを効果的に減らし,プロンプトを最適に学習するのに役立つことを示す。
- 参考スコア(独自算出の注目度): 68.40755873520808
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, there has been an increasing interest in automated prompt
optimization based on reinforcement learning (RL). This approach offers
important advantages, such as generating interpretable prompts and being
compatible with black-box foundation models. However, the substantial prompt
space size poses challenges for RL-based methods, often leading to suboptimal
policy convergence. This paper introduces MultiPrompter, a new framework that
views prompt optimization as a cooperative game between prompters which take
turns composing a prompt together. Our cooperative prompt optimization
effectively reduces the problem size and helps prompters learn optimal prompts.
We test our method on the text-to-image task and show its ability to generate
higher-quality images than baselines.
- Abstract(参考訳): 近年,強化学習(RL)に基づく自動プロンプト最適化への関心が高まっている。
このアプローチは、解釈可能なプロンプトの生成やブラックボックス基盤モデルとの互換性など、重要な利点を提供する。
しかし、かなりのプロンプト空間サイズは、RL法に挑戦し、しばしば準最適ポリシー収束をもたらす。
本稿では,プロンプトを交互に構成するプロンプト間の協調ゲームとして,プロンプト最適化の新たなフレームワークであるMultiPrompterを紹介する。
我々の協調的プロンプト最適化は問題のサイズを効果的に減らし、プロンプトの学習を支援する。
提案手法をテキストから画像へのタスクでテストし,ベースラインよりも高品質な画像を生成する能力を示す。
関連論文リスト
- Task Facet Learning: A Structured Approach to Prompt Optimization [14.223730629357178]
本稿では,タスクの複数の面をトレーニング例から学習するアルゴリズムを提案する。
結果のアルゴリズムであるUniPromptは、各プロンプトセクションの初期候補を生成する生成モデルで構成されている。
複数のデータセットと実世界のタスクに対する経験的評価は、UniPromptを使って生成されたプロンプトが、人間のチューニングしたプロンプトよりも高い精度が得られることを示している。
論文 参考訳(メタデータ) (2024-06-15T04:54:26Z) - Prompt Optimization with Human Feedback [69.95991134172282]
人間のフィードバックによる迅速な最適化問題(POHF)について検討する。
我々は自動POHF(Automatic POHF)というアルゴリズムを導入する。
その結果、APOHFは、少数の好みフィードバックインスタンスを用いて、効率的に適切なプロンプトを見つけることができることがわかった。
論文 参考訳(メタデータ) (2024-05-27T16:49:29Z) - Efficient Prompting Methods for Large Language Models: A Survey [50.171011917404485]
プロンプティングは、特定の自然言語処理タスクに大規模言語モデル(LLM)を適用するための主流パラダイムとなっている。
このアプローチは、LLMの振る舞いをガイドし、制御するために、モデル推論と人間の努力のさらなる計算負担をもたらす。
本稿では, 今後の研究の方向性を明らかにするため, 促進, 効率的な促進のための進歩を概説する。
論文 参考訳(メタデータ) (2024-04-01T12:19:08Z) - Parrot: Pareto-optimal Multi-Reward Reinforcement Learning Framework for Text-to-Image Generation [40.74782694945025]
本稿では,報酬重みを手動で調整する問題に対処するParrotを提案する。
我々は,新しいマルチリワード最適化アルゴリズムを用いて,T2Iモデルと即時拡張ネットワークを協調的に最適化する。
また,提案手法は,ユーザ入力に対するインプットの正確性を確保するために,推論時に独自のプロンプト中心のガイダンスを導入する。
論文 参考訳(メタデータ) (2024-01-11T05:36:36Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - Multi-Prompt with Depth Partitioned Cross-Modal Learning [25.239388488952375]
Partitioned Multi-modal Prompt (PMPO) は、単一の学習可能なプロンプトから複数のプロンプトへのソフトプロンプトを拡張するマルチモーダルプロンプト技術である。
本手法は,視覚エンコーダ深度を分割し,学習可能なプロンプトを分離した視覚深度に接続することにより,階層的な文脈深度を捉えることができる。
我々は,新しいクラス一般化,クロスデータセット評価,ドメイン一般化の3つの課題に対して,アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2023-05-10T14:54:29Z) - Iterative Prompt Learning for Unsupervised Backlit Image Enhancement [86.90993077000789]
そこで本研究では,CLIP-LITと略称される,非教師なしのバックライト画像強調手法を提案する。
オープンワールドのCLIPはバックライト画像と well-lit 画像の区別に有効であることを示す。
提案手法は,学習フレームワークの更新と,学習結果を視覚的に満足するまでのネットワークの強化を交互に行う。
論文 参考訳(メタデータ) (2023-03-30T17:37:14Z) - Prompt Learning with Optimal Transport for Vision-Language Models [25.928455328563402]
複数の包括的プロンプトを学習し、内在的属性や外在的文脈などのカテゴリの特徴を多様に記述する。
この問題を解決するために,視覚とテキストのモダリティに最適なトランスポートを提案する。
内ループでは、視覚的特徴とプロンプトをシンクホーンアルゴリズムで調整するために最適な輸送距離を最適化する一方、外ループでは、教師付きデータからこの距離でプロンプトを学習する。
論文 参考訳(メタデータ) (2022-10-03T22:21:07Z) - RLPrompt: Optimizing Discrete Text Prompts With Reinforcement Learning [84.75064077323098]
本稿では、強化学習(RL)を用いた離散的高速最適化手法RLPromptを提案する。
RLPromptは、マスク付きジベリッシュ(例:grammaBERT)や左から右へのモデル(例:GPT)など、様々な種類のLMに柔軟に適用可能である。
少数ショット分類と教師なしテキストスタイル転送の実験は、既存のファインタニングやプロンプト手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-05-25T07:50:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。