論文の概要: Self-Prompt Tuning: Enable Autonomous Role-Playing in LLMs
- arxiv url: http://arxiv.org/abs/2407.08995v1
- Date: Fri, 12 Jul 2024 05:26:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 00:36:46.084072
- Title: Self-Prompt Tuning: Enable Autonomous Role-Playing in LLMs
- Title(参考訳): セルフプロンプトチューニング: LLMでの自律的なロールプレイを可能にする
- Authors: Aobo Kong, Shiwan Zhao, Hao Chen, Qicheng Li, Yong Qin, Ruiqi Sun, Xin Zhou, Jiaming Zhou, Haoqin Sun,
- Abstract要約: 自己プロンプトチューニングされたLLMは、任意の質問に対して専門家の役割プロンプトを自動的に生成することができる。
我々は、広く使われているNLPベンチマークとオープンエンド質問テストに基づいて、自己プロンプト調整LPMを広範囲に評価した。
- 参考スコア(独自算出の注目度): 12.615896145500393
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in LLMs have showcased their remarkable role-playing capabilities, able to accurately simulate the dialogue styles and cognitive processes of various roles based on different instructions and contexts. Studies indicate that assigning LLMs the roles of experts, a strategy known as role-play prompting, can enhance their performance in the corresponding domains. However, the prompt needs to be manually designed for the given problem, requiring certain expertise and iterative modifications. To this end, we propose self-prompt tuning, making LLMs themselves generate role-play prompts through fine-tuning. Leveraging the LIMA dataset as our foundational corpus, we employ GPT-4 to annotate role-play prompts for each data points, resulting in the creation of the LIMA-Role dataset. We then fine-tune LLMs like Llama-2-7B and Mistral-7B on LIMA-Role. Consequently, the self-prompt tuned LLMs can automatically generate expert role prompts for any given question. We extensively evaluate self-prompt tuned LLMs on widely used NLP benchmarks and open-ended question test. Our empirical results illustrate that self-prompt tuned LLMs outperform standard instruction tuned baselines across most datasets. This highlights the great potential of utilizing fine-tuning to enable LLMs to self-prompt, thereby automating complex prompting strategies. We release the dataset, models, and code at this \href{https://anonymous.4open.science/r/Self-Prompt-Tuning-739E/}{url}.
- Abstract(参考訳): LLMの最近の進歩は、異なる指示や文脈に基づいて、様々な役割の対話スタイルと認知過程を正確にシミュレートできる、目覚ましいロールプレイング能力を示してきた。
研究は、LLMを専門家の役割に割り当てること、すなわちロールプレイプロンプトとして知られる戦略は、対応する領域におけるそれらのパフォーマンスを高めることを示唆している。
しかし、プロンプトは、特定の専門知識と反復的な修正を必要とする、与えられた問題のために手動で設計する必要がある。
この目的のために,LLM自体が微調整によってロールプレイプロンプトを生成するセルフ・プロンプト・チューニングを提案する。
LIMAデータセットを基本コーパスとして活用することにより、各データポイントにロールプレイプロンプトをアノテートするためにGPT-4を使用し、LIMA-Roleデータセットを作成する。
LIMA-Role上のLlama-2-7BやMistral-7Bのような微調整LDMを作製した。
従って、自己プロンプト調整されたLSMは、任意の質問に対して専門家のロールプロンプトを自動的に生成することができる。
我々は、広く使われているNLPベンチマークとオープンエンド質問テストに基づいて、自己プロンプト調整LPMを広範囲に評価した。
実験結果から,LLMの自発チューニングは,ほとんどのデータセットにおいて,標準命令のチューニングベースラインよりも優れていたことが示唆された。
このことは、LLMを自己プロンプトにするために微調整を利用する大きな可能性を強調し、複雑なプロンプト戦略を自動化する。
データセット、モデル、コードは、この \href{https://anonymous.4open.science/r/Self-Prompt-Tuning-739E/}{url} でリリースします。
関連論文リスト
- Parrot: Efficient Serving of LLM-based Applications with Semantic Variable [11.894203842968745]
Parrotは、LLMベースのアプリケーションのエンドツーエンドエクスペリエンスに焦点を当てたサービスシステムである。
Semantic Variableはリクエストのプロンプトで入出力変数に注釈を付け、複数のLLMリクエストを接続する際にデータパイプラインを生成する。
論文 参考訳(メタデータ) (2024-05-30T09:46:36Z) - Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - Why and When LLM-Based Assistants Can Go Wrong: Investigating the
Effectiveness of Prompt-Based Interactions for Software Help-Seeking [5.755004576310333]
大規模言語モデル(LLM)アシスタントは、ユーザーがソフトウェアをナビゲートするための検索方法の潜在的な代替手段として登場した。
LLMアシスタントは、ドメイン固有のテキスト、ソフトウェアマニュアル、コードリポジトリからの膨大なトレーニングデータを使用して、人間のようなインタラクションを模倣する。
論文 参考訳(メタデータ) (2024-02-12T19:49:58Z) - Large Language Models are Superpositions of All Characters: Attaining
Arbitrary Role-play via Self-Alignment [62.898963074989766]
本稿では,ロールプレイのための自己アライメント手法であるDittoを紹介する。
この方法は4000文字からなるロールプレイトレーニングセットを生成し、現在利用可能なデータセットのスケールを10倍に超える。
本稿では,ロールプレイ領域におけるクロススーパービジョンアライメント実験について紹介する。
論文 参考訳(メタデータ) (2024-01-23T03:56:22Z) - Bootstrapping LLM-based Task-Oriented Dialogue Agents via Self-Talk [11.706292228586332]
大規模言語モデル(LLM)は強力な対話エージェントであるが、特定の機能の実現に特化することは困難である。
本稿では,様々な役割における会話に係わるLLMを通して,より効果的なデータ収集手法を提案する。
このアプローチはLLMの“セルフトーク”を通じてトレーニングデータを生成し,教師付き微調整に利用することができる。
論文 参考訳(メタデータ) (2024-01-10T09:49:10Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.32236399694077]
トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。
我々は「反射チューニング」と呼ばれる新しい手法を提案する。
このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
論文 参考訳(メタデータ) (2023-10-18T05:13:47Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。