論文の概要: HPSS: Heuristic Prompting Strategy Search for LLM Evaluators
- arxiv url: http://arxiv.org/abs/2502.13031v1
- Date: Tue, 18 Feb 2025 16:46:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:02:35.641026
- Title: HPSS: Heuristic Prompting Strategy Search for LLM Evaluators
- Title(参考訳): HPSS:LLM評価器のヒューリスティック・プロンプティング・ストラテジー検索
- Authors: Bosi Wen, Pei Ke, Yufei Sun, Cunxiang Wang, Xiaotao Gu, Jinfeng Zhou, Jie Tang, Hongning Wang, Minlie Huang,
- Abstract要約: 我々はHuristic Prompting Strategy Search (HPSS)と呼ばれる新しい自動プロンプト戦略最適化手法を提案する。
遺伝的アルゴリズムにインスパイアされ、HPSSは反復探索を行い、評価者に対する適切な手順を見つける。
4つの評価課題にわたる大規模な実験により,HPSSの有効性が示された。
- 参考スコア(独自算出の注目度): 81.09765876000208
- License:
- Abstract: Since the adoption of large language models (LLMs) for text evaluation has become increasingly prevalent in the field of natural language processing (NLP), a series of existing works attempt to optimize the prompts for LLM evaluators to improve their alignment with human judgment. However, their efforts are limited to optimizing individual factors of evaluation prompts, such as evaluation criteria or output formats, neglecting the combinatorial impact of multiple factors, which leads to insufficient optimization of the evaluation pipeline. Nevertheless, identifying well-behaved prompting strategies for adjusting multiple factors requires extensive enumeration. To this end, we comprehensively integrate 8 key factors for evaluation prompts and propose a novel automatic prompting strategy optimization method called Heuristic Prompting Strategy Search (HPSS). Inspired by the genetic algorithm, HPSS conducts an iterative search to find well-behaved prompting strategies for LLM evaluators. A heuristic function is employed to guide the search process, enhancing the performance of our algorithm. Extensive experiments across four evaluation tasks demonstrate the effectiveness of HPSS, consistently outperforming both human-designed evaluation prompts and existing automatic prompt optimization methods.
- Abstract(参考訳): テキスト評価における大規模言語モデル (LLM) の採用が自然言語処理 (NLP) の分野でますます広まりつつあるため、LLM評価者が人間の判断との整合性を改善するためのプロンプトの最適化が試みられている。
しかし、それらの取り組みは評価基準や出力形式などの評価プロンプトの個々の要因の最適化に限られており、複数の要因の組合せ的影響を無視しており、評価パイプラインの最適化が不十分である。
それでも、複数の要因を調整するための適切な手順を特定するには、広範囲の列挙が必要である。
そこで我々は,評価プロンプトの8つの重要な要素を総合的に統合し,Huristic Prompting Strategy Search (HPSS)と呼ばれる新しい自動プロンプト戦略最適化手法を提案する。
遺伝的アルゴリズムにインスパイアされ、HPSSは反復探索を行い、LSM評価器の良好な推進戦略を見つける。
探索過程を導くためにヒューリスティック関数を用い,アルゴリズムの性能を向上させる。
4つの評価課題にわたる広範囲な実験は、HPSSの有効性を示し、人間設計評価プロンプトと既存の自動プロンプト最適化手法を一貫して上回っている。
関連論文リスト
- An Automatic and Cost-Efficient Peer-Review Framework for Language Generation Evaluation [29.81362106367831]
既存の評価手法は、しばしば高いコスト、限られたテスト形式、人間の参照の必要性、体系的な評価バイアスに悩まされる。
人間のアノテーションに依存する以前の研究とは対照的に、Auto-PREはそれら固有の特性に基づいて自動的に評価者を選択する。
実験結果から,我々のAuto-PREは最先端の性能を低コストで達成できることが示された。
論文 参考訳(メタデータ) (2024-10-16T06:06:06Z) - AIME: AI System Optimization via Multiple LLM Evaluators [79.03422337674664]
AIME は複数の LLM を利用した評価プロトコルであり、それぞれが独立した基準で評価を生成し、結合を通してそれらを結合する。
コード生成タスクにおける AIME のベースラインメソッドのパフォーマンスは,LeetCodeHard と HumanEval データセットの単一 LLM 評価プロトコルよりも最大 62% 高いエラー検出率,最大 16% 高い成功率で向上している。
論文 参考訳(メタデータ) (2024-10-04T04:03:24Z) - On Speeding Up Language Model Evaluation [48.51924035873411]
LLM(Large Language Models)を用いたプロンプトベースの手法の開発には、多くの意思決定が必要である。
この課題に対処するための新しい手法を提案する。
典型的に必要とされるリソースの5~15%しか必要とせず,トップパフォーマンスの手法を識別できることが示される。
論文 参考訳(メタデータ) (2024-07-08T17:48:42Z) - A Better LLM Evaluator for Text Generation: The Impact of Prompt Output Sequencing and Optimization [17.38671584773247]
本研究では,大規模言語モデル(LLM)を用いたテキスト評価の迅速設計について検討する。
結果,理由と得点の順序がLLMの得点に大きく影響していることが判明した。
追加の最適化は、十分なデータが利用可能であればアライメントアライメントを強化する可能性がある。
論文 参考訳(メタデータ) (2024-06-14T12:31:44Z) - Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。
我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。
実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文 参考訳(メタデータ) (2024-06-12T16:58:41Z) - Semantic-guided Prompt Organization for Universal Goal Hijacking against LLMs [30.56428628397079]
本稿では,意味誘導型プロンプト処理戦略を取り入れたPOUGHと呼ばれる汎用ゴールハイジャック手法を提案する。
この方法はまず、候補プールから代表プロンプトを選択するためのサンプリング戦略から始まり、次にプロンプトを優先順位付けするランキング戦略が続く。
4種類の人気言語モデルと10種類のターゲット応答を用いた実験により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-05-23T05:31:41Z) - Who Validates the Validators? Aligning LLM-Assisted Evaluation of LLM Outputs with Human Preferences [11.23629471911503]
EvalGenは、評価基準の生成とアサーションの実装において、ユーザに自動アシストを提供する。
質的研究は、EvalGenに対する全体的なサポートを見出すが、主観性と反復的なアライメントのプロセスを強調している。
ユーザはアウトプットを格付けする基準が必要ですが、アウトプットのグレードは、ユーザが基準を定義するのに役立つのです。
論文 参考訳(メタデータ) (2024-04-18T15:45:27Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - Preference Ranking Optimization for Human Alignment [90.6952059194946]
大規模言語モデル(LLM)は、しばしば誤解を招くコンテンツを含み、それらを人間の価値と整合させる必要性を強調している。
人間のフィードバックからの強化学習(RLHF)が、このアライメントを達成するために採用されている。
我々は、人間のアライメントのための微調整LDMのための効率的なSFTアルゴリズムとして、優先度ランク付け最適化(PRO)を提案する。
論文 参考訳(メタデータ) (2023-06-30T09:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。