論文の概要: FIPO: Free-form Instruction-oriented Prompt Optimization with Preference
Dataset and Modular Fine-tuning Schema
- arxiv url: http://arxiv.org/abs/2402.11811v1
- Date: Mon, 19 Feb 2024 03:56:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 18:43:38.058248
- Title: FIPO: Free-form Instruction-oriented Prompt Optimization with Preference
Dataset and Modular Fine-tuning Schema
- Title(参考訳): FIPO: 優先度データセットとモジュールファインチューニングスキーマを用いた自由形式命令指向プロンプト最適化
- Authors: Junru Lu and Siyu An and Min Zhang and Yulan He and Di Yin and Xing
Sun
- Abstract要約: プロンプトクラフトのテクニックは、平均的なユーザにとって重要な、かつ複雑なタスクとして現れます。
FIPO(Free-form Instruction-oriented Prompt Optimization)を提案する。
このアプローチは当社の大規模プロンプト選好データセットによってサポートされています。
- 参考スコア(独自算出の注目度): 38.83502191683521
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the quest to facilitate the deep intelligence of Large Language Models
(LLMs) accessible in final-end user-bot interactions, the art of prompt
crafting emerges as a critical yet complex task for the average user. Contrast
to previous model-oriented yet instruction-agnostic Automatic Prompt
Optimization methodologies, yielding polished results for predefined target
models while suffering rapid degradation with out-of-box models, we present
Free-form Instruction-oriented Prompt Optimization (FIPO). This approach is
supported by our large-scale prompt preference dataset and employs a modular
fine-tuning schema. The FIPO schema reimagines the optimization process into
manageable modules, anchored by a meta prompt that dynamically adapts content.
This allows for the flexible integration of the raw task instruction, the
optional instruction response, and the optional ground truth to produce finely
optimized task prompts. The FIPO preference dataset is meticulously constructed
using the optimal and suboptimal LLMs, undergoing rigorous cross-verification
by human experts and analytical models. Applying the insights from the data
with Tulu2 models and fine-tuning strategies, we validate the efficacy of FIPO
schema across five public benchmarks. Codes, data and scripts are here:
https://github.com/LuJunru/FIPO_Project.
- Abstract(参考訳): エンドユーザとボットのインタラクションでアクセス可能な大規模言語モデル(llm)の深い知性を促進するため、プロンプト作成の技術は、平均的なユーザにとって重要かつ複雑なタスクとして現れます。
従来のモデル指向で命令に依存しない自動プロンプト最適化手法とは対照的に,事前定義された対象モデルに対して,アウト・オブ・ボックスモデルで急速に劣化する一方,洗練された結果が得られる。
このアプローチは当社の大規模プロンプト選好データセットでサポートされており、モジュール化された微調整スキーマを採用している。
fipoスキーマは、コンテンツに動的に適応するメタプロンプトで固定された管理可能なモジュールに最適化プロセスを再設計する。
これにより、生のタスク命令、オプションの命令応答、オプションの基底真理を柔軟に統合して、最適化されたタスクプロンプトを生成することができる。
FIPO選好データセットは最適かつ準最適のLLMを用いて慎重に構築され、人間の専門家や分析モデルによる厳密な相互検証が行われている。
Tulu2モデルと微調整戦略によるデータからの洞察を適用して、5つの公開ベンチマークでFIPOスキーマの有効性を検証する。
コード、データ、スクリプトはこちら。 https://github.com/lujunru/fipo_project。
関連論文リスト
- RosePO: Aligning LLM-based Recommenders with Human Values [38.029251417802044]
我々は、パーソナライズされた選好最適化(RosePO)を円滑にするための一般的なフレームワークを提案する。
RosePOは、トレーニング後の段階において、カスタマイズされた人的価値との整合性が向上する。
実世界の3つのデータセットの評価は,本手法の有効性を示す。
論文 参考訳(メタデータ) (2024-10-16T12:54:34Z) - ASFT: Aligned Supervised Fine-Tuning through Absolute Likelihood [14.512464277772194]
Aligned Supervised Fine-Tuning (ASFT)は、大規模言語モデルとペアワイズデータセットの整合性を改善する効果的なアプローチである。
ASFTは、DPO損失関数が人間の不適切なデータを生成する確率を減少させる問題を緩和する。
大規模な実験により、ASFTは効果的なアライメントアプローチであり、既存の手法より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-09-14T11:39:13Z) - AIPO: Improving Training Objective for Iterative Preference Optimization [34.24211649396053]
合成データを用いた反復選好最適化について検討する。
我々は,反復選好最適化,すなわち合意対応反復選好最適化(AIPO)のための学習目標を提案する。
論文 参考訳(メタデータ) (2024-09-13T14:03:49Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Localized Zeroth-Order Prompt Optimization [54.964765668688806]
そこで我々は,ZOPO(Localized zeroth-order prompt optimization)という新しいアルゴリズムを提案する。
ZOPOはニューラル・タンジェント・カーネルをベースとしたガウス法を標準ゼロ階次最適化に取り入れ、高速な局所最適探索を高速化する。
注目すべきは、ZOPOは最適化性能とクエリ効率の両方の観点から、既存のベースラインを上回っていることだ。
論文 参考訳(メタデータ) (2024-03-05T14:18:15Z) - Unleashing the Potential of Large Language Models as Prompt Optimizers: An Analogical Analysis with Gradient-based Model Optimizers [108.72225067368592]
本稿では,大規模言語モデル(LLM)に基づくプロンプトの設計について検討する。
モデルパラメータ学習における2つの重要な要素を同定する。
特に、勾配に基づく最適化から理論的な枠組みや学習手法を借用し、改良された戦略を設計する。
論文 参考訳(メタデータ) (2024-02-27T15:05:32Z) - PRompt Optimization in Multi-Step Tasks (PROMST): Integrating Human Feedback and Heuristic-based Sampling [20.0605311279483]
マルチステップタスク(PROMST)におけるPRompt Optimizationを導入する。
人間が設計したフィードバックルールを組み込んで、改善のための直接提案を自動的に提供する。
これは、人間工学的なプロンプトと、他のいくつかのプロンプト最適化手法の両方において、11の代表的なマルチステップタスクよりも大幅に優れている。
論文 参考訳(メタデータ) (2024-02-13T16:38:01Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - Large Language Models as Optimizers [106.52386531624532]
本稿では,大規模言語モデル (LLM) をプロンプトとして活用するためのシンプルで効果的な手法である Prompting (OPRO) を提案する。
各最適化ステップにおいて、LLMは、前述した値を含むプロンプトから新しい解を生成する。
OPROにより最適化された最良のプロンプトは、GSM8Kで最大8%、Big-Bench Hardタスクで最大50%向上することを示した。
論文 参考訳(メタデータ) (2023-09-07T00:07:15Z) - Robust Prompt Optimization for Large Language Models Against
Distribution Shifts [80.6757997074956]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて重要な能力を示している。
本稿では,LLMの分散シフトに対するロバストな最適化法を提案する。
この問題は、ラベル付けされたソースグループに最適化されたプロンプトを同時にラベル付けされていないターゲットグループに一般化する必要がある。
論文 参考訳(メタデータ) (2023-05-23T11:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。