Fugu-MT 論文翻訳(概要): Teach Better or Show Smarter? On Instructions and Exemplars in Automatic Prompt Optimization

論文の概要: Teach Better or Show Smarter? On Instructions and Exemplars in Automatic Prompt Optimization

arxiv url: http://arxiv.org/abs/2406.15708v2
Date: Wed, 06 Nov 2024 22:07:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:34.01018
Title: Teach Better or Show Smarter? On Instructions and Exemplars in Automatic Prompt Optimization
Title（参考訳）: 授業改善か、よりスマートか? : 自動プロンプト最適化の指導と実践について
Authors: Xingchen Wan, Ruoxi Sun, Hootan Nakhost, Sercan O. Arik,
Abstract要約: 本稿では,多様な課題に対して,代表的IO技術とEO技術の性能を総合的に比較する。モデル生成した入出力ペアをインテリジェントに再利用することで、IOメソッド上での性能が一貫して向上することがわかった。また,EOとIOの相乗効果も観察し,各コントリビューションを超越した最適な組み合わせを示した。
参考スコア（独自算出の注目度）: 15.967049403803749
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models have demonstrated remarkable capabilities, but their performance is heavily reliant on effective prompt engineering. Automatic prompt optimization (APO) methods are designed to automate this and can be broadly categorized into those targeting instructions (instruction optimization, IO) vs. those targeting exemplars (exemplar optimization, EO). Despite their shared objective, these have evolved rather independently, with IO receiving more research attention recently. This paper seeks to bridge this gap by comprehensively comparing the performance of representative IO and EO techniques both isolation and combination on a diverse set of challenging tasks. Our findings reveal that intelligently reusing model-generated input-output pairs obtained from evaluating prompts on the validation set as exemplars, consistently improves performance on top of IO methods but is currently under-investigated. We also find that despite the recent focus on IO, how we select exemplars can outweigh how we optimize instructions, with EO strategies as simple as random search outperforming state-of-the-art IO methods with seed instructions without any optimization. Moreover, we observe a synergy between EO and IO, with optimal combinations surpassing the individual contributions. We conclude that studying exemplar optimization both as a standalone method and its optimal combination with instruction optimization remain a crucial aspect of APO and deserve greater consideration in future research, even in the era of highly capable instruction-following models.
Abstract（参考訳）: 大規模言語モデルは目覚ましい能力を示してきたが、その性能は効果的なプロンプトエンジニアリングに大きく依存している。自動プロンプト最適化(APO)手法は、これを自動化するために設計されており、命令(命令最適化、IO)と前者の命令(例最適化、EO)に大別できる。彼らの共通の目的にもかかわらず、これらは比較的独立して進化し、IOは近年より多くの研究の注目を集めている。本稿では,多様な課題に対して,代表的IO技術とEO技術の性能を総合的に比較することにより,このギャップを埋めることを模索する。その結果, モデル生成した入出力ペアを, 検証セットのプロンプトを例示として評価し, 常にIO法の性能を向上するが, 未検討であることがわかった。また、最近のIOに焦点が当てられているにも拘わらず、EO戦略は、最適化せずにシード命令で最先端のIOメソッドをランダムに検索するのと同じくらい、命令の最適化方法を上回ることができる。さらに,EOとIOの相乗効果を観察し,各コントリビューションを超越した最適な組み合わせを示す。独立手法と命令最適化の最適組み合わせを併用した模範最適化の研究は、APOの重要な側面であり、高機能な命令追従モデルの時代においても、将来の研究においてより検討に値すると結論付けている。

関連論文リスト

ELPO: Ensemble Learning Based Prompt Optimization for Large Language Models [39.71820341519503]
本稿では,より正確で堅牢な結果を得るために,ELPO(Ensemble Learning Based Prompt Optimization)と呼ばれる新しいフレームワークを提案する。 ELPOは、アンサンブル学習の概念に触発され、投票機構を実行し、共有生成戦略を導入する。 ELPOは、迅速な生成と探索プロセスのためのより効率的なアルゴリズムを創造的に提示する。
論文参考訳（メタデータ） (2025-11-20T07:27:26Z)
Better by Comparison: Retrieval-Augmented Contrastive Reasoning for Automatic Prompt Optimization [6.3914079241545885]
提案するCRPO(Contrastive Reasoning Prompt Optimization)は,検索強化推論プロセスとして迅速な最適化を定式化する新しいフレームワークである。提案手法では,HelpSteer2データセットからトップk参照プロンプト-レスポンスペアを検索する。 CRPOは、高品位と低品位を明示的に対比することにより、あるプロンプトが成功する理由を推論し、他のプロンプトが失敗する理由を推測することを可能にする。
論文参考訳（メタデータ） (2025-09-02T08:45:29Z)
ORPP: Self-Optimizing Role-playing Prompts to Enhance Language Model Capabilities [64.24517317344959]
複雑なタスクにおいて、大きな言語モデルから優れたパフォーマンスを引き出すためには、高品質なプロンプトが不可欠である。本稿では,ロールプレイングプロンプトの最適化と生成によりモデル性能を向上させるフレームワークORPPを提案する。 ORPPは一致しただけでなく、ほとんどの場合、性能の点で既存の主流のプロンプト最適化手法を上回ります。
論文参考訳（メタデータ） (2025-06-03T05:51:35Z)
In-context Ranking Preference Optimization [65.5489745857577]
In-context Ranking Preference Optimization (IRPO) フレームワークを提案する。 IRPOは標準のDPO手法よりも高い性能を示し、LLMと直接文脈内ランキング設定の整合性を強調した。
論文参考訳（メタデータ） (2025-04-21T23:06:12Z)
RAISE: Reinforenced Adaptive Instruction Selection For Large Language Models [48.63476198469349]
本稿では,タスクオブジェクト駆動型命令選択フレームワークRAISEを提案する。 RAISEは命令の微調整プロセス全体を最適化に組み込んでいる。モデルの性能改善に対する命令の期待される影響に基づいて,各ステップで命令を選択する。
論文参考訳（メタデータ） (2025-04-09T21:17:52Z)
Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection [71.92083784393418]
Best-of-N (BON) サンプリングのような推論時間法は、パフォーマンスを改善するための単純で効果的な代替手段を提供する。本稿では,反復的改良と動的候補評価,検証器による選択を併用した反復的エージェント復号(IAD)を提案する。
論文参考訳（メタデータ） (2025-04-02T17:40:47Z)
ToolACE-R: Tool Learning with Adaptive Self-Refinement [84.69651852838794]
ツール学習により、大規模言語モデルは複雑なユーザタスクを解決するための外部ツールを活用することができる。本稿では,ツール実行のための適応型自己調整手法であるToolACE-Rを提案する。提案手法は,様々なサイズのベースモデルと互換性のある提案手法の有効性を実証した。
論文参考訳（メタデータ） (2025-04-02T06:38:56Z)
Evolutionary Pre-Prompt Optimization for Mathematical Reasoning [45.461506988071534]
本稿では,実効的なチェーン・オブ・フォー・プレプロンプトの設計におけるサンプル選択の最適化について検討する。アルゴリズムの選択は、通常、進化的計算のような比較に基づく手法に有利であり、有効性と実現可能性を大幅に向上させることを示している。
論文参考訳（メタデータ） (2024-12-05T16:12:06Z)
Dynamic Rewarding with Prompt Optimization Enables Tuning-free Self-Alignment of Language Models [54.381650481255235]
我々は,Prompt Optimization (O) を用いた動的リワードによる自己アライメントのための新しいチューニング不要アプローチを提案する。提案手法は,LLMを反復的に自己改善し,最適アライメント命令を作成可能な検索ベース最適化フレームワークを活用する。近年の8つのLCMのオープンおよびクローズドソースに関する実証評価により,DRPOはアライメント性能を著しく向上することが示された。
論文参考訳（メタデータ） (2024-11-13T16:15:38Z)
IOPO: Empowering LLMs with Complex Instruction Following via Input-Output Preference Optimization [74.34707794886751]
本稿では,複雑な命令追従能力の向上と評価のためのベンチマークであるTRACEを紹介する。また、入力と出力の両方の選好ペアを考慮に入れたIOPOを提案する。ドメイン内データセットとドメイン外データセットの両方の実験により、IOPOの有効性が確認された。
論文参考訳（メタデータ） (2024-11-09T15:12:43Z)
Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文参考訳（メタデータ） (2024-09-26T12:37:26Z)
AIPO: Improving Training Objective for Iterative Preference Optimization [34.24211649396053]
合成データを用いた反復選好最適化について検討する。我々は,反復選好最適化,すなわち合意対応反復選好最適化(AIPO)のための学習目標を提案する。
論文参考訳（メタデータ） (2024-09-13T14:03:49Z)
Large Language Models Prompting With Episodic Memory [53.8690170372303]
本稿では,POEM(PrOmpting with Episodic Memory)を提案する。テストフェーズでは、各テストクエリのサンプルのシーケンスを最適化し、エピソードメモリにおけるトップkで最も類似したトレーニング例から最も高い合計報酬を得るシーケンスを選択する。その結果,POEMはテキスト分類タスクにおいてTEMPERAやRLPromptといった最近の技術よりも5.3%向上していることがわかった。
論文参考訳（メタデータ） (2024-08-14T11:19:28Z)
Prompt Optimization with EASE? Efficient Ordering-aware Automated Selection of Exemplars [66.823588073584]
大規模言語モデル(LLM)は、現実世界のアプリケーションで印象的な機能を示している。これらの卓越した作品の品質は、パフォーマンスに大きな影響を与えます。既存の方法は、先行注文がパフォーマンスに与える影響を適切に説明できない。
論文参考訳（メタデータ） (2024-05-25T08:23:05Z)
FIPO: Free-form Instruction-oriented Prompt Optimization with Preference Dataset and Modular Fine-tuning Schema [36.65009632307124]
大規模言語モデル(LLM)のタスク性能向上のためのFIPO(Free-from Instruction-oriented Prompt Optimization)を提案する。 FIPOはモジュール型のAPOテンプレートを使用して、単純で最適化されたプロンプトを生成するために、ナイーブなタスク命令、オプションの命令応答、オプションの接地真理を動的に統合する。 5つの公開ベンチマークと6つのテストモデルでFIPOフレームワークを検証する。
論文参考訳（メタデータ） (2024-02-19T03:56:44Z)
PhaseEvo: Towards Unified In-Context Prompt Optimization for Large Language Models [9.362082187605356]
本稿では、LLMの生成能力と進化アルゴリズムのグローバル検索能力を組み合わせた効率的な自動プロンプト最適化フレームワークであるPhaseEvoについて述べる。 PhaseEvoは、優れた効率を維持しながら、最先端のベースライン手法を大きなマージンで大幅に上回っている。
論文参考訳（メタデータ） (2024-02-17T17:47:10Z)
Query-Dependent Prompt Evaluation and Optimization with Offline Inverse RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。このような最適化では、以前見過ごされたクエリ依存の目的を特定します。本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文参考訳（メタデータ） (2023-09-13T01:12:52Z)
Robust Prompt Optimization for Large Language Models Against Distribution Shifts [80.6757997074956]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて重要な能力を示している。本稿では,LLMの分散シフトに対するロバストな最適化法を提案する。この問題は、ラベル付けされたソースグループに最適化されたプロンプトを同時にラベル付けされていないターゲットグループに一般化する必要がある。
論文参考訳（メタデータ） (2023-05-23T11:30:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。