論文の概要: Self-Instructed Derived Prompt Generation Meets In-Context Learning: Unlocking New Potential of Black-Box LLMs
- arxiv url: http://arxiv.org/abs/2409.01552v1
- Date: Tue, 3 Sep 2024 02:42:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 03:21:06.663531
- Title: Self-Instructed Derived Prompt Generation Meets In-Context Learning: Unlocking New Potential of Black-Box LLMs
- Title(参考訳): 自己指示型派生型プロンプト生成と文脈学習:ブラックボックスLLMの新たな可能性の解き放つ
- Authors: Zhuo Li, Yuhao Du, Jinpeng Hu, Xiang Wan, Anningzhe Gao,
- Abstract要約: 大規模言語モデル(LLM)は、高品質な応答を生成することに成功している。
応答品質を向上させる既存の方法は、しばしば即時改善モデルを含む。
我々は、LLMにより効果的な応答を提供するための自己指示型インコンテキスト学習フレームワークを導入する。
- 参考スコア(独自算出の注目度): 30.333277284839053
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) have shown success in generating high-quality responses. In order to achieve better alignment with LLMs with human preference, various works are proposed based on specific optimization process, which, however, is not suitable to Black-Box LLMs like GPT-4, due to inaccessible parameters. In Black-Box LLMs case, their performance is highly dependent on the quality of the provided prompts. Existing methods to enhance response quality often involve a prompt refinement model, yet these approaches potentially suffer from semantic inconsistencies between the refined and original prompts, and typically overlook the relationship between them. To address these challenges, we introduce a self-instructed in-context learning framework that empowers LLMs to deliver more effective responses by generating reliable derived prompts to construct informative contextual environments. Our approach incorporates a self-instructed reinforcement learning mechanism, enabling direct interaction with the response model during derived prompt generation for better alignment. We then formulate querying as an in-context learning task, using responses from LLMs combined with the derived prompts to establish a contextual demonstration for the original prompt. This strategy ensures alignment with the original query, reduces discrepancies from refined prompts, and maximizes the LLMs' in-context learning capability. Extensive experiments demonstrate that the proposed method not only generates more reliable derived prompts but also significantly enhances LLMs' ability to deliver more effective responses, including Black-Box models such as GPT-4.
- Abstract(参考訳): 大規模言語モデル(LLM)は、高品質な応答を生成することに成功している。
ヒトの嗜好とLLMとの整合性を改善するため、特定の最適化プロセスに基づいて様々な研究が提案されているが、GPT-4のようなブラックボックスのLCMには、アクセス不能なパラメータにより適していない。
Black-Box LLMsの場合、その性能は提供されたプロンプトの品質に大きく依存する。
応答品質を向上させる既存の手法は、しばしば即時改善モデルを伴うが、これらのアプローチは、洗練されたプロンプトと元のプロンプトのセマンティックな矛盾に悩まされ、典型的にはそれらの関係を見落としている。
これらの課題に対処するため、我々はLLMが情報的文脈環境を構築するための信頼できる派生プロンプトを生成することにより、より効果的な応答を提供することができる自己指示型インコンテキスト学習フレームワークを導入する。
提案手法には自己指示型強化学習機構が組み込まれており, 導出プロンプト生成時の応答モデルとの直接的相互作用によりアライメントが向上する。
次に、LLMからの応答と派生したプロンプトを組み合わせて、クエリをコンテキスト内学習タスクとして定式化し、元のプロンプトのコンテキスト実証を確立する。
この戦略は、元のクエリとの整合性を確保し、洗練されたプロンプトから不一致を低減し、LLMのコンテキスト内学習能力を最大化する。
実験により,提案手法はより信頼性の高いプロンプトを生成するだけでなく,GPT-4 などの Black-Box モデルを含む,より効率的な応答を提供する LLM の能力を著しく向上することが示された。
関連論文リスト
- QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。
我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。
様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文 参考訳(メタデータ) (2024-08-20T03:06:48Z) - MAPO: Boosting Large Language Model Performance with Model-Adaptive Prompt Optimization [73.7779735046424]
異なるプロンプトを異なるLarge Language Models (LLM) に適応させることで,NLP の様々な下流タスクにまたがる機能の向上が期待できる。
次に、下流タスクにおける各LLMに対して、元のプロンプトを最適化するモデル適応プロンプト(MAPO)手法を提案する。
論文 参考訳(メタデータ) (2024-07-04T18:39:59Z) - Enhancing the Capability and Robustness of Large Language Models through Reinforcement Learning-Driven Query Refinement [32.888016435098045]
大きな言語モデル(LLM)の、正直で無害で有用な応答を生成する能力は、ユーザープロンプトの品質に大きく依存している。
本研究では,LSMに入力される前にユーザプロンプトを洗練する,転送可能でプラグイン可能なフレームワークを提案する。
この戦略はクエリの品質を改善し、LCMにより誠実で良質で有用なレスポンスを生成する権限を与えます。
論文 参考訳(メタデータ) (2024-07-01T16:55:28Z) - Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - Prompt Highlighter: Interactive Control for Multi-Modal LLMs [50.830448437285355]
本研究では,マルチモーダル LLM (LLMs&VLMs) 推論における重要な側面として,明示的な制御可能なテキスト生成を目標とする。
本稿では,新しい推論手法であるPrompt Highlighterを導入し,ユーザが特定のプロンプトスパンをハイライトし,生成中のフォーカスをインタラクティブに制御できるようにする。
推論中、注意重みを通して強調されたトークンでモデルを導くことで、より望ましい出力が得られます。
論文 参考訳(メタデータ) (2023-12-07T13:53:29Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - Knowing What LLMs DO NOT Know: A Simple Yet Effective Self-Detection Method [36.24876571343749]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて大きな可能性を示している。
近年の文献では、LLMは断続的に非実効応答を生成する。
本研究では,LLM が知らない質問が非現実的な結果を生成する傾向にあることを検知する新たな自己検出手法を提案する。
論文 参考訳(メタデータ) (2023-10-27T06:22:14Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。