論文の概要: On the Worst Prompt Performance of Large Language Models
- arxiv url: http://arxiv.org/abs/2406.10248v2
- Date: Fri, 21 Jun 2024 08:55:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-24 18:57:27.930011
- Title: On the Worst Prompt Performance of Large Language Models
- Title(参考訳): 大規模言語モデルの最悪のプロンプト性能について
- Authors: Bowen Cao, Deng Cai, Zhisong Zhang, Yuexian Zou, Wai Lam,
- Abstract要約: 大規模言語モデル(LLM)の性能は,プロンプトの表現に非常に敏感である。
セマンティックに等価なケースレベルのクエリで構成される新しいベンチマークであるRobustAlpacaEvalを紹介する。
RobustAlpacaEvalとChatGPT、およびLlama、Mistral、Gemmaファミリーの6つのオープンソースLLMによる実験により、モデル性能のかなりのばらつきが明らかになった。
- 参考スコア(独自算出の注目度): 93.13542053835542
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The performance of large language models (LLMs) is acutely sensitive to the phrasing of prompts, which raises significant concerns about their reliability in real-world scenarios. Existing studies often divide prompts into task-level instructions and case-level inputs and primarily focus on evaluating and improving robustness against variations in tasks-level instructions. However, this setup fails to fully address the diversity of real-world user queries and assumes the existence of task-specific datasets. To address these limitations, we introduce RobustAlpacaEval, a new benchmark that consists of semantically equivalent case-level queries and emphasizes the importance of using the worst prompt performance to gauge the lower bound of model performance. Extensive experiments on RobustAlpacaEval with ChatGPT and six open-source LLMs from the Llama, Mistral, and Gemma families uncover substantial variability in model performance; for instance, a difference of 45.48% between the worst and best performance for the Llama-2-70B-chat model, with its worst performance dipping as low as 9.38%. We further illustrate the difficulty in identifying the worst prompt from both model-agnostic and model-dependent perspectives, emphasizing the absence of a shortcut to characterize the worst prompt. We also attempt to enhance the worst prompt performance using existing prompt engineering and prompt consistency methods, but find that their impact is limited. These findings underscore the need to create more resilient LLMs that can maintain high performance across diverse prompts. Data and code are available at https://github.com/cbwbuaa/On-the-Worst-Prompt- Performance-of-LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)の性能はプロンプトの表現に非常に敏感であり、現実のシナリオにおける信頼性に対する大きな懸念を引き起こす。
既存の研究では、しばしばプロンプトをタスクレベルの命令とケースレベルのインプットに分割し、主にタスクレベルの命令のバリエーションに対する堅牢性を評価し改善することに焦点を当てている。
しかし、このセットアップは現実世界のユーザクエリの多様性を完全に解決することができず、タスク固有のデータセットの存在を前提としている。
これは意味論的に等価なケースレベルのクエリで構成される新しいベンチマークで、モデルパフォーマンスの低いバウンダリを測定するために、最悪のプロンプトパフォーマンスを使用することの重要性を強調します。
ChatGPTのRobostAlpacaEvalと、Llama、Mistral、Gemmaファミリーの6つのオープンソースLCMによる大規模な実験により、モデル性能のかなりの変動が明らかになった。
さらに、モデルに依存しない視点とモデルに依存しない視点の両方から最悪のプロンプトを特定することの難しさを説明し、最悪のプロンプトを特徴づけるショートカットがないことを強調する。
既存のプロンプトエンジニアリングとプロンプト一貫性メソッドを使用して、最悪のプロンプトパフォーマンスを向上しようともしていますが、その影響は限られています。
これらの知見は、多様なプロンプトにまたがって高い性能を維持できる、より回復力のあるLCMを作成する必要性を浮き彫りにしている。
データとコードはhttps://github.com/cbwbuaa/On-the-Worst-Prompt- Performance-of-LLMsで入手できる。
関連論文リスト
- LiveMind: Low-latency Large Language Models with Simultaneous Inference [9.795240210326346]
大規模言語モデル(LLM)推論のための新しい低レイテンシ推論フレームワークを提案する。
計算処理を再配置して入力位相を推し進めることで、レイテンシを大幅に削減する。
20文を超える長いプロンプトでは、応答遅延を最大93%削減できる。
論文 参考訳(メタデータ) (2024-06-20T13:52:30Z) - FamiCom: Further Demystifying Prompts for Language Models with Task-Agnostic Performance Estimation [73.454943870226]
言語モデルは、コンテキスト内学習能力に優れています。
本稿では,タスク非依存のパフォーマンス推定のためのより包括的な尺度であるFamiComを提案する。
論文 参考訳(メタデータ) (2024-06-17T06:14:55Z) - StablePT: Towards Stable Prompting for Few-shot Learning via Input Separation [14.341806875791288]
sysnameは最先端メソッドの精度を7.20%向上させ、標準偏差を平均2.02削減する。
論文 参考訳(メタデータ) (2024-04-30T08:01:49Z) - Cleared for Takeoff? Compositional & Conditional Reasoning may be the Achilles Heel to (Flight-Booking) Language Agents [12.391420075730242]
我々は,人間の認知の2つの基礎となる構成的および条件的推論を研究し,グラウンドココアを紹介した。
私たちのタスクは、詳細なユーザの好みと、複数の選択形式で提示される利用可能なフライトオプションを整合させることです。
GPT-4 Turboは, 先進的なプロンプト技術にもかかわらず精度が67%を超えなかった。
論文 参考訳(メタデータ) (2024-04-05T17:36:26Z) - RankPrompt: Step-by-Step Comparisons Make Language Models Better Reasoners [38.30539869264287]
大きな言語モデル(LLM)は、様々な推論タスクで素晴らしいパフォーマンスを実現しています。
しかし、ChatGPTのような最先端のLCMでさえ、推論プロセス中に論理的な誤りを犯しやすい。
新たなプロンプト手法である RankPrompt を導入し,LLM が追加リソースを必要とせずに応答を自己ランクできる手法を提案する。
論文 参考訳(メタデータ) (2024-03-19T02:34:18Z) - Revisit Input Perturbation Problems for LLMs: A Unified Robustness
Evaluation Framework for Noisy Slot Filling Task [18.623619585980688]
本研究では,大言語モデルの対話理解能力を評価するために,スロット充足タスクに基づく統一ロバストネス評価フレームワークを提案する。
具体的には,5種類の単一摂動と4種類の混合摂動データを含む入力摂動評価データセットであるノイズLLMを構築した。
本研究の目的は,LLMの様々なロバスト性評価手法が実世界の雑音のシナリオでどの程度機能するかを評価することである。
論文 参考訳(メタデータ) (2023-10-10T10:22:05Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。
本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-05-24T10:08:04Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。