Fugu-MT 論文翻訳(概要): Optimizing Instructions and Demonstrations for Multi-Stage Language Model Programs

論文の概要: Optimizing Instructions and Demonstrations for Multi-Stage Language Model Programs

arxiv url: http://arxiv.org/abs/2406.11695v2
Date: Sun, 06 Oct 2024 17:34:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 12:26:04.102678
Title: Optimizing Instructions and Demonstrations for Multi-Stage Language Model Programs
Title（参考訳）: 多段階言語モデルプログラムの指導と実証の最適化
Authors: Krista Opsahl-Ong, Michael J Ryan, Josh Purtell, David Broman, Christopher Potts, Matei Zaharia, Omar Khattab,
Abstract要約: 言語モデルプログラムの即時最適化について検討する。この問題を各モジュールのフリーフォーム命令と数発のデモの最適化に分解する。我々は,LMプログラムを最適化する新しいアルゴリズムであるMIPROを開発した。
参考スコア（独自算出の注目度）: 40.159064885288245
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Language Model Programs, i.e. sophisticated pipelines of modular language model (LM) calls, are increasingly advancing NLP tasks, but they require crafting prompts that are jointly effective for all modules. We study prompt optimization for LM programs, i.e. how to update these prompts to maximize a downstream metric without access to module-level labels or gradients. To make this tractable, we factorize our problem into optimizing the free-form instructions and few-shot demonstrations of every module and introduce several strategies to craft task-grounded instructions and navigate credit assignment across modules. Our strategies include (i) program- and data-aware techniques for proposing effective instructions, (ii) a stochastic mini-batch evaluation function for learning a surrogate model of our objective, and (iii) a meta-optimization procedure in which we refine how LMs construct proposals over time. Using these insights we develop MIPRO, a novel algorithm for optimizing LM programs. MIPRO outperforms baseline optimizers on five of seven diverse multi-stage LM programs using a best-in-class open-source model (Llama-3-8B), by as high as 13% accuracy. We have released our new optimizers and benchmark in DSPy at http://dspy.ai
Abstract（参考訳）: 言語モデルプログラム、すなわち、モジュール言語モデル(LM)コールの洗練されたパイプラインは、NLPタスクの進歩が進んでいるが、すべてのモジュールに共同で有効であるクラフトプロンプトが必要である。 LMプログラムのプロンプト最適化,すなわち,モジュールレベルのラベルや勾配にアクセスせずに,下流のメトリックを最大化するためにこれらのプロンプトを更新する方法について検討する。これを実現するため、各モジュールのフリーフォーム命令と数発のデモを最適化し、タスクグラウンドの命令を作成し、モジュール間のクレジット代入をナビゲートするいくつかの戦略を導入する。私たちの戦略には (i)効果的な指示を提案するためのプログラム及びデータ認識技術二目的の代理モデルを学ぶための確率的ミニバッチ評価機能、及び 3)メタ最適化手法により、LMが提案を時間とともにどのように構築するかを洗練する。これらの知見を用いて,LMプログラムを最適化する新しいアルゴリズムであるMIPROを開発した。 MIPROは、ベストインクラスのオープンソースモデル(Llama-3-8B)を用いて、7つの多段階LMプログラムのうち5つのベースラインオプティマイザの性能を最大13%向上させる。 DSPyで新しいオプティマイザとベンチマークをhttp://dspy.aiでリリースしました。

関連論文リスト

Multi-module GRPO: Composing Policy Gradients and Prompt Optimization for Language Model Programs [77.22973302887435]
グループ相対政策最適化(GRPO)は、後学習言語モデル(LM)に有効なツールであることが証明されている。 GRPOの単純なマルチモジュールであるmmGRPOを提案する。自動的なプロンプト最適化によって構成されたmGRPOは,分類,多項目検索,プライバシー保護デリゲートタスクなどを通じて,平均11%の精度向上を実現している。
論文参考訳（メタデータ） (2025-08-06T17:28:31Z)
Toward a Trustworthy Optimization Modeling Agent via Verifiable Synthetic Data Generation [11.988926173584154]
本稿では,信頼性の高い大規模言語モデル(LLM)エージェントを合成データ生成パイプラインを介して訓練するためのフレームワークを提案する。 OptiTrustは、自然言語からソルバ対応コードへの多言語翻訳を行うモジュール型LLMエージェントである。我々のエージェントは、標準ベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-08-05T05:54:20Z)
Grammar-Guided Evolutionary Search for Discrete Prompt Optimisation [63.97051732013936]
本稿では,2段階からなる離散的な自動最適化に対する進化的探索手法を提案する。第1段階では、文法誘導型遺伝的プログラミングが実行され、プロンプト生成プログラムを合成する。第2段階では、局所探索を用いて、最高のパフォーマンスプログラムの周辺を探索する。
論文参考訳（メタデータ） (2025-07-14T14:34:15Z)
QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文参考訳（メタデータ） (2024-08-20T03:06:48Z)
Fine-Tuning and Prompt Optimization: Two Great Steps that Work Better Together [21.797319884895025]
我々は,モジュールレベルのLM重み付けとそれに関連するプロンプトテンプレートの両方を最適化して,下流タスクメトリックを最大化するための戦略を模索する。そこで本研究では,モジュール型LMパイプラインを最適化するための重み付けと即時最適化を両立させるため,両パイプラインを交互に組み合わせて同じLMを学習する手法を提案する。
論文参考訳（メタデータ） (2024-07-15T17:30:31Z)
MAPO: Boosting Large Language Model Performance with Model-Adaptive Prompt Optimization [73.7779735046424]
異なるプロンプトを異なるLarge Language Models (LLM) に適応させることで,NLP の様々な下流タスクにまたがる機能の向上が期待できる。次に、下流タスクにおける各LLMに対して、元のプロンプトを最適化するモデル適応プロンプト(MAPO)手法を提案する。
論文参考訳（メタデータ） (2024-07-04T18:39:59Z)
Revisiting OPRO: The Limitations of Small-Scale LLMs as Optimizers [15.809293135844756]
比較的小規模な言語モデル(LLM)を用いた自動プロンプトのためのOPROを再検討する。 OPROは小規模なLLMにおいて限られた有効性を示し、推論能力は最適化能力を制限している。我々は,モデル能力と計算コストの両方を考慮するために,将来的な自動プロンプトエンジニアリングを提案する。
論文参考訳（メタデータ） (2024-05-16T17:33:50Z)
Unleashing the Potential of Large Language Models as Prompt Optimizers: An Analogical Analysis with Gradient-based Model Optimizers [108.72225067368592]
本稿では,大規模言語モデル(LLM)に基づくプロンプトの設計について検討する。モデルパラメータ学習における2つの重要な要素を同定する。特に、勾配に基づく最適化から理論的な枠組みや学習手法を借用し、改良された戦略を設計する。
論文参考訳（メタデータ） (2024-02-27T15:05:32Z)
FIPO: Free-form Instruction-oriented Prompt Optimization with Preference Dataset and Modular Fine-tuning Schema [36.65009632307124]
大規模言語モデル(LLM)のタスク性能向上のためのFIPO(Free-from Instruction-oriented Prompt Optimization)を提案する。 FIPOはモジュール型のAPOテンプレートを使用して、単純で最適化されたプロンプトを生成するために、ナイーブなタスク命令、オプションの命令応答、オプションの接地真理を動的に統合する。 5つの公開ベンチマークと6つのテストモデルでFIPOフレームワークを検証する。
論文参考訳（メタデータ） (2024-02-19T03:56:44Z)
PRompt Optimization in Multi-Step Tasks (PROMST): Integrating Human Feedback and Heuristic-based Sampling [20.0605311279483]
マルチステップタスク(PROMST)におけるPRompt Optimizationを導入する。人間が設計したフィードバックルールを組み込んで、改善のための直接提案を自動的に提供する。これは、人間工学的なプロンプトと、他のいくつかのプロンプト最適化手法の両方において、11の代表的なマルチステップタスクよりも大幅に優れている。
論文参考訳（メタデータ） (2024-02-13T16:38:01Z)
Large Language Models as Optimizers [106.52386531624532]
本稿では,大規模言語モデル (LLM) をプロンプトとして活用するためのシンプルで効果的な手法である Prompting (OPRO) を提案する。各最適化ステップにおいて、LLMは、前述した値を含むプロンプトから新しい解を生成する。 OPROにより最適化された最良のプロンプトは、GSM8Kで最大8%、Big-Bench Hardタスクで最大50%向上することを示した。
論文参考訳（メタデータ） (2023-09-07T00:07:15Z)
Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。 LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文参考訳（メタデータ） (2023-02-22T17:44:15Z)
Learning to Superoptimize Real-world Programs [79.4140991035247]
本稿では,ニューラルシークエンス・ツー・シーケンス・モデルを用いて,実世界のプログラムを最適化するフレームワークを提案する。我々は、x86-64アセンブリでオープンソースプロジェクトから抽出された25万以上の実世界の関数からなるデータセットであるBig Assemblyベンチマークを紹介した。
論文参考訳（メタデータ） (2021-09-28T05:33:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。