論文の概要: Teach Better or Show Smarter? On Instructions and Exemplars in Automatic Prompt Optimization
- arxiv url: http://arxiv.org/abs/2406.15708v1
- Date: Sat, 22 Jun 2024 02:07:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 21:04:37.134832
- Title: Teach Better or Show Smarter? On Instructions and Exemplars in Automatic Prompt Optimization
- Title(参考訳): 授業改善か、よりスマートか? : 自動プロンプト最適化の指導と実践について
- Authors: Xingchen Wan, Ruoxi Sun, Hootan Nakhost, Sercan O. Arik,
- Abstract要約: 本稿では,多様な課題に対して,代表的IO技術とES技術の性能を総合的に比較する。
最近のIOに焦点が当てられているにも関わらず、どのように例えを選ぶかは、命令の最適化方法よりも優れていることが分かりました。
ESとIOの相乗効果を観察し,各コントリビューションを超越した最適な組み合わせを示す。
- 参考スコア(独自算出の注目度): 15.967049403803749
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models have demonstrated remarkable capabilities, but their performance is heavily reliant on effective prompt engineering. Automatic prompt optimization (APO) methods are designed to automate this and can be broadly categorized into those targeting instructions (instruction optimization, IO) vs. those targeting exemplars (exemplar selection, ES). Despite their shared objective, these have evolved rather independently, with IO recently receiving more research attention. This paper seeks to bridge this gap by comprehensively comparing the performance of representative IO and ES techniques, both isolation and combination, on a diverse set of challenging tasks. Our findings reveal that intelligently reusing model-generated input-output pairs obtained from evaluating prompts on the validation set as exemplars consistently improves performance over IO methods but is currently under-investigated. We also find that despite the recent focus on IO, how we select exemplars can outweigh how we optimize instructions, with ES strategies as simple as random search outperforming state-of-the-art IO methods with seed instructions without any optimization. Moreover, we observe synergy between ES and IO, with optimal combinations surpassing individual contributions. We conclude that studying exemplar selection as a standalone method and its optimal combination with instruction optimization remains a crucial aspect of APO and deserves greater consideration in future research, even in the era of highly capable instruction-following models.
- Abstract(参考訳): 大規模言語モデルは目覚ましい能力を示してきたが、その性能は効果的なプロンプトエンジニアリングに大きく依存している。
自動プロンプト最適化(APO)手法は、これを自動化するために設計されており、命令(命令最適化、IO)を対象とする命令(例選択、ES)に対して広範囲に分類することができる。
彼らの共通の目的にもかかわらず、これらは比較的独立して進化しており、IOは最近より研究の注目を集めている。
本稿では,このギャップを解消するために,多様な課題に対して,代表的IO技術とES技術(分離と組み合わせの両方)のパフォーマンスを総合的に比較する。
実験結果によると, モデル生成した入力出力ペアを, 検証セット上でのプロンプトの評価からインテリジェントに再利用することで, IO法よりも連続的に性能が向上するが, 未検討であることがわかった。
また,最近の IO に焦点が当てられているにも拘わらず,ES ストラテジーは,最適化を伴わないシード命令で最先端の IO メソッドをランダムに検索するのと同じように,命令の最適化方法を上回ることができることがわかった。
さらに,ESとIOの相乗効果を観察し,各コントリビューションを超越した最適な組み合わせを示す。
予備的な手法としての模範選択の学習と命令最適化との最適な組み合わせは、APOの重要な側面であり、高度に有能な命令追従モデルの時代においても、将来の研究においてより考慮すべきである、と結論付けている。
関連論文リスト
- Dynamic Rewarding with Prompt Optimization Enables Tuning-free Self-Alignment of Language Models [54.381650481255235]
我々は,Prompt Optimization (O) を用いた動的リワードによる自己アライメントのための新しいチューニング不要アプローチを提案する。
提案手法は,LLMを反復的に自己改善し,最適アライメント命令を作成可能な検索ベース最適化フレームワークを活用する。
近年の8つのLCMのオープンおよびクローズドソースに関する実証評価により,DRPOはアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-11-13T16:15:38Z) - IOPO: Empowering LLMs with Complex Instruction Following via Input-Output Preference Optimization [74.34707794886751]
本稿では,複雑な命令追従能力の向上と評価のためのベンチマークであるTRACEを紹介する。
また、入力と出力の両方の選好ペアを考慮に入れたIOPOを提案する。
ドメイン内データセットとドメイン外データセットの両方の実験により、IOPOの有効性が確認された。
論文 参考訳(メタデータ) (2024-11-09T15:12:43Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - AIPO: Improving Training Objective for Iterative Preference Optimization [34.24211649396053]
合成データを用いた反復選好最適化について検討する。
我々は,反復選好最適化,すなわち合意対応反復選好最適化(AIPO)のための学習目標を提案する。
論文 参考訳(メタデータ) (2024-09-13T14:03:49Z) - Large Language Models Prompting With Episodic Memory [53.8690170372303]
本稿では,POEM(PrOmpting with Episodic Memory)を提案する。
テストフェーズでは、各テストクエリのサンプルのシーケンスを最適化し、エピソードメモリにおけるトップkで最も類似したトレーニング例から最も高い合計報酬を得るシーケンスを選択する。
その結果,POEMはテキスト分類タスクにおいてTEMPERAやRLPromptといった最近の技術よりも5.3%向上していることがわかった。
論文 参考訳(メタデータ) (2024-08-14T11:19:28Z) - Prompt Optimization with EASE? Efficient Ordering-aware Automated Selection of Exemplars [66.823588073584]
大規模言語モデル(LLM)は、現実世界のアプリケーションで印象的な機能を示している。
これらの卓越した作品の品質は、パフォーマンスに大きな影響を与えます。
既存の方法は、先行注文がパフォーマンスに与える影響を適切に説明できない。
論文 参考訳(メタデータ) (2024-05-25T08:23:05Z) - FIPO: Free-form Instruction-oriented Prompt Optimization with Preference Dataset and Modular Fine-tuning Schema [36.65009632307124]
大規模言語モデル(LLM)のタスク性能向上のためのFIPO(Free-from Instruction-oriented Prompt Optimization)を提案する。
FIPOはモジュール型のAPOテンプレートを使用して、単純で最適化されたプロンプトを生成するために、ナイーブなタスク命令、オプションの命令応答、オプションの接地真理を動的に統合する。
5つの公開ベンチマークと6つのテストモデルでFIPOフレームワークを検証する。
論文 参考訳(メタデータ) (2024-02-19T03:56:44Z) - PhaseEvo: Towards Unified In-Context Prompt Optimization for Large
Language Models [9.362082187605356]
本稿では、LLMの生成能力と進化アルゴリズムのグローバル検索能力を組み合わせた効率的な自動プロンプト最適化フレームワークであるPhaseEvoについて述べる。
PhaseEvoは、優れた効率を維持しながら、最先端のベースライン手法を大きなマージンで大幅に上回っている。
論文 参考訳(メタデータ) (2024-02-17T17:47:10Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - Robust Prompt Optimization for Large Language Models Against
Distribution Shifts [80.6757997074956]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて重要な能力を示している。
本稿では,LLMの分散シフトに対するロバストな最適化法を提案する。
この問題は、ラベル付けされたソースグループに最適化されたプロンプトを同時にラベル付けされていないターゲットグループに一般化する必要がある。
論文 参考訳(メタデータ) (2023-05-23T11:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。