Fugu-MT 論文翻訳(概要): FIPO: Free-form Instruction-oriented Prompt Optimization with Preference Dataset and Modular Fine-tuning Schema

論文の概要: FIPO: Free-form Instruction-oriented Prompt Optimization with Preference Dataset and Modular Fine-tuning Schema

arxiv url: http://arxiv.org/abs/2402.11811v3
Date: Wed, 14 Aug 2024 11:47:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-15 18:06:42.120108
Title: FIPO: Free-form Instruction-oriented Prompt Optimization with Preference Dataset and Modular Fine-tuning Schema
Title（参考訳）: FIPO: 優先度データセットとモジュールファインチューニングスキーマを用いた自由形式命令指向プロンプト最適化
Authors: Junru Lu, Siyu An, Min Zhang, Yulan He, Di Yin, Xing Sun,
Abstract要約: 大規模言語モデル(LLM)のタスク性能向上のためのFIPO(Free-from Instruction-oriented Prompt Optimization)を提案する。 FIPOはモジュール型のAPOテンプレートを使用して、単純で最適化されたプロンプトを生成するために、ナイーブなタスク命令、オプションの命令応答、オプションの接地真理を動的に統合する。 5つの公開ベンチマークと6つのテストモデルでFIPOフレームワークを検証する。
参考スコア（独自算出の注目度）: 36.65009632307124
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: When the quality of naive prompts is carefully optimized by human experts, the task performance of large language models (LLMs) can be significantly improved. However, expert-based prompt optimizations are expensive. Herein, some works have proposed Automatic Prompt Optimization (APO), to optimize naive prompts according to task outputs of given in-box testing models, with the help of advanced LLMs (e.g., GPT-4) in an ad-hoc way. Although effective, existing schemes suffer from poor generalization ability and privacy risk. To this end, we collect the first large-scale Prompt Optimization Preference dataset (POP), fine-tune offline local LLM-based optimizers, then fairly test with various downstream models. Our method allows accurate optimization of the core task instruction part within the naive prompt in a model-agnostic manner, and thus is named Free-from Instruction-oriented Prompt Optimization (FIPO). In specific, FIPO uses a modular APO template that dynamically integrate the naive task instruction, optional instruction responses, and optional ground truth to produce finely optimized prompts. The POP dataset is meticulously constructed using advanced LLMs, undergoing rigorous cross-validation by human experts and analytical models. Leveraging insights from the data with Tulu2 models and diverse fine-tuning strategies, we validate the efficacy of FIPO framework across five public benchmarks and six testing models. Check codes and data here: https://github.com/LuJunru/FIPO_Project.
Abstract（参考訳）: ナイーブプロンプトの品質が人間の専門家によって慎重に最適化されると、大規模言語モデル(LLM)のタスク性能が大幅に向上する。しかし、エキスパートベースのプロンプト最適化は高価である。ここでは、ある箱内試験モデルのタスク出力に応じて、アドホックな方法で高度なLCM(例えば、GPT-4)の助けを借りて、自然なプロンプトを最適化する自動プロンプト最適化(APO)を提案する研究がある。効果はあるものの、既存のスキームは一般化能力の低下とプライバシーリスクに悩まされている。この目的のために、我々は、POP(Prompt Optimization Preference dataset)の最初の大規模プロンプト最適化データセットを収集した。提案手法では, モデルに依存しない方法で, コアタスク命令部分の正確な最適化が可能であり, 提案手法はFIPO (Free-from Instruction-oriented Prompt Optimization) と呼ばれる。具体的には、FIPOはモジュール型APOテンプレートを使用して、単純タスク命令、任意命令応答、オプション基底真理を動的に統合し、微調整されたプロンプトを生成する。 POPデータセットは高度なLCMを用いて慎重に構築され、人間の専門家や分析モデルによる厳密なクロスバリデーションが実施されている。 Tulu2モデルとさまざまな微調整戦略によるデータからの洞察を活用して、5つの公開ベンチマークと6つのテストモデルでFIPOフレームワークの有効性を検証する。 https://github.com/LuJunru/FIPO_Project.com/FIPO_Project.com/FIPO_Project.com/FIPO_Project.com/FIPO_ Project.com/FIPO_Project

関連論文リスト

Adaptive Sample Scheduling for Direct Preference Optimization [37.75208455935495]
DPOのためのサンプルスケジューリングという,新しい問題を紹介します。モデルの進化状態に基づいてトレーニングサンプルを動的かつ適応的にスケジュールすることを目的としている。トレーニングバッチ毎にサンプルを適応的に選択する,効率的かつ効率的なアルゴリズムであるSamSを提案する。
論文参考訳（メタデータ） (2025-06-08T10:26:09Z)
ORPP: Self-Optimizing Role-playing Prompts to Enhance Language Model Capabilities [64.24517317344959]
複雑なタスクにおいて、大きな言語モデルから優れたパフォーマンスを引き出すためには、高品質なプロンプトが不可欠である。本稿では,ロールプレイングプロンプトの最適化と生成によりモデル性能を向上させるフレームワークORPPを提案する。 ORPPは一致しただけでなく、ほとんどの場合、性能の点で既存の主流のプロンプト最適化手法を上回ります。
論文参考訳（メタデータ） (2025-06-03T05:51:35Z)
Model Performance-Guided Evaluation Data Selection for Effective Prompt Optimization [12.683042228674694]
IPOMPは、セマンティッククラスタリングとバウンダリ分析を使用して、代表的で多様なサンプルを選択する2段階のアプローチである。我々は、IPOMPがSOTAベースラインと比較して、効率を1.6%から5.3%改善し、安定性を少なくとも57%向上させることを示した。
論文参考訳（メタデータ） (2025-05-15T22:41:30Z)
Rethinking Prompt Optimizers: From Prompt Merits to Optimization [14.01541576309104]
MePOは、メリット対応のプロンプトから構築された、メリット誘導型で軽量で、ローカルにデプロイ可能なプロンプトトレーニングデータセットである。 MePOはオンライン最適化を避け、コストとプライバシの懸念を低減し、明確で解釈可能なメリットを学習することで、大規模な推論モデルと軽量推論モデルの両方に効果的に一般化する。
論文参考訳（メタデータ） (2025-05-15T03:31:37Z)
Self-Supervised Prompt Optimization [16.06653117043314]
十分に設計されたプロンプトは、Large Language Model(LLM)推論能力の強化に不可欠である。既存のプロンプト最適化手法は、地上の真実や人間による外部参照に大きく依存している。本稿では,閉じたタスクとオープンなタスクの両方に効果的なプロンプトを発見する費用効率のよいフレームワークであるセルフ・スーパービジョン・プロンプト・最適化(SPO)を提案する。
論文参考訳（メタデータ） (2025-02-07T17:45:16Z)
Align-Pro: A Principled Approach to Prompt Optimization for LLM Alignment [40.71270945505082]
大規模言語モデル(LLM)は、様々な社会的および意思決定プロセスに統合されつつある。人間のフィードバックからの強化学習(RLHF)のような従来の手法は、微調整モデルパラメータによるアライメントを実現する。対照的に、迅速な最適化はLLMアライメントのためのRLHFの代替となる。
論文参考訳（メタデータ） (2025-01-07T03:14:39Z)
Boosting Private Domain Understanding of Efficient MLLMs: A Tuning-free, Adaptive, Universal Prompt Optimization Framework [60.26747209785186]
マルチモーダル大言語モデル(EMLLM)は、モデルのサイズと計算コストを削減し、しばしばリソース制約されたデバイスにデプロイされる。既存のオープンソースLMは、事前トレーニングプロセス中にプライベートドメイン固有のデータにアクセスすることは滅多にない。我々は,universtextbfunderlineAL textbfunderlinePrompt Optimization Framework, atextbfunderlineDaptivtextbfunderlineE, universtextbfunderlineAL textbfunderlinePrompt Optimization Frameworkを提案する。
論文参考訳（メタデータ） (2024-12-27T15:21:17Z)
RosePO: Aligning LLM-based Recommenders with Human Values [38.029251417802044]
我々は、パーソナライズされた選好最適化(RosePO)を円滑にするための一般的なフレームワークを提案する。 RosePOは、トレーニング後の段階において、カスタマイズされた人的価値との整合性が向上する。実世界の3つのデータセットの評価は,本手法の有効性を示す。
論文参考訳（メタデータ） (2024-10-16T12:54:34Z)
ASFT: Aligned Supervised Fine-Tuning through Absolute Likelihood [14.512464277772194]
Aligned Supervised Fine-Tuning (ASFT)は、大規模言語モデルとペアワイズデータセットの整合性を改善する効果的なアプローチである。 ASFTは、DPO損失関数が人間の不適切なデータを生成する確率を減少させる問題を緩和する。大規模な実験により、ASFTは効果的なアライメントアプローチであり、既存の手法より一貫して優れていることが示された。
論文参考訳（メタデータ） (2024-09-14T11:39:13Z)
AIPO: Improving Training Objective for Iterative Preference Optimization [34.24211649396053]
合成データを用いた反復選好最適化について検討する。我々は,反復選好最適化,すなわち合意対応反復選好最適化(AIPO)のための学習目標を提案する。
論文参考訳（メタデータ） (2024-09-13T14:03:49Z)
Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文参考訳（メタデータ） (2024-05-31T14:21:04Z)
Localized Zeroth-Order Prompt Optimization [54.964765668688806]
そこで我々は,ZOPO(Localized zeroth-order prompt optimization)という新しいアルゴリズムを提案する。 ZOPOはニューラル・タンジェント・カーネルをベースとしたガウス法を標準ゼロ階次最適化に取り入れ、高速な局所最適探索を高速化する。注目すべきは、ZOPOは最適化性能とクエリ効率の両方の観点から、既存のベースラインを上回っていることだ。
論文参考訳（メタデータ） (2024-03-05T14:18:15Z)
Unleashing the Potential of Large Language Models as Prompt Optimizers: An Analogical Analysis with Gradient-based Model Optimizers [108.72225067368592]
本稿では,大規模言語モデル(LLM)に基づくプロンプトの設計について検討する。モデルパラメータ学習における2つの重要な要素を同定する。特に、勾配に基づく最適化から理論的な枠組みや学習手法を借用し、改良された戦略を設計する。
論文参考訳（メタデータ） (2024-02-27T15:05:32Z)
PRompt Optimization in Multi-Step Tasks (PROMST): Integrating Human Feedback and Heuristic-based Sampling [20.0605311279483]
マルチステップタスク(PROMST)におけるPRompt Optimizationを導入する。人間が設計したフィードバックルールを組み込んで、改善のための直接提案を自動的に提供する。これは、人間工学的なプロンプトと、他のいくつかのプロンプト最適化手法の両方において、11の代表的なマルチステップタスクよりも大幅に優れている。
論文参考訳（メタデータ） (2024-02-13T16:38:01Z)
Query-Dependent Prompt Evaluation and Optimization with Offline Inverse RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。このような最適化では、以前見過ごされたクエリ依存の目的を特定します。本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文参考訳（メタデータ） (2023-09-13T01:12:52Z)
Large Language Models as Optimizers [106.52386531624532]
本稿では,大規模言語モデル (LLM) をプロンプトとして活用するためのシンプルで効果的な手法である Prompting (OPRO) を提案する。各最適化ステップにおいて、LLMは、前述した値を含むプロンプトから新しい解を生成する。 OPROにより最適化された最良のプロンプトは、GSM8Kで最大8%、Big-Bench Hardタスクで最大50%向上することを示した。
論文参考訳（メタデータ） (2023-09-07T00:07:15Z)
Robust Prompt Optimization for Large Language Models Against Distribution Shifts [80.6757997074956]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて重要な能力を示している。本稿では,LLMの分散シフトに対するロバストな最適化法を提案する。この問題は、ラベル付けされたソースグループに最適化されたプロンプトを同時にラベル付けされていないターゲットグループに一般化する必要がある。
論文参考訳（メタデータ） (2023-05-23T11:30:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。