Fugu-MT 論文翻訳(概要): On the Worst Prompt Performance of Large Language Models

論文の概要: On the Worst Prompt Performance of Large Language Models

arxiv url: http://arxiv.org/abs/2406.10248v4
Date: Wed, 30 Oct 2024 09:48:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:33.657683
Title: On the Worst Prompt Performance of Large Language Models
Title（参考訳）: 大規模言語モデルの最悪のプロンプト性能について
Authors: Bowen Cao, Deng Cai, Zhisong Zhang, Yuexian Zou, Wai Lam,
Abstract要約: 大規模言語モデル(LLM)の性能は,プロンプトの表現に非常に敏感である。セマンティックに等価なケースレベルのクエリで構成される新しいベンチマークであるRobustAlpacaEvalを紹介する。 RobustAlpacaEvalとChatGPT、およびLlama、Mistral、Gemmaファミリーの6つのオープンソースLLMによる実験により、モデル性能のかなりのばらつきが明らかになった。
参考スコア（独自算出の注目度）: 93.13542053835542
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The performance of large language models (LLMs) is acutely sensitive to the phrasing of prompts, which raises significant concerns about their reliability in real-world scenarios. Existing studies often divide prompts into task-level instructions and case-level inputs and primarily focus on evaluating and improving robustness against variations in tasks-level instructions. However, this setup fails to fully address the diversity of real-world user queries and assumes the existence of task-specific datasets. To address these limitations, we introduce RobustAlpacaEval, a new benchmark that consists of semantically equivalent case-level queries and emphasizes the importance of using the worst prompt performance to gauge the lower bound of model performance. Extensive experiments on RobustAlpacaEval with ChatGPT and six open-source LLMs from the Llama, Mistral, and Gemma families uncover substantial variability in model performance; for instance, a difference of 45.48% between the worst and best performance for the Llama-2-70B-chat model, with its worst performance dipping as low as 9.38%. We further illustrate the difficulty in identifying the worst prompt from both model-agnostic and model-dependent perspectives, emphasizing the absence of a shortcut to characterize the worst prompt. We also attempt to enhance the worst prompt performance using existing prompt engineering and prompt consistency methods, but find that their impact is limited. These findings underscore the need to create more resilient LLMs that can maintain high performance across diverse prompts. Data and code are available at https://github.com/cbwbuaa/On-the-Worst-Prompt- Performance-of-LLMs.
Abstract（参考訳）: 大規模言語モデル(LLM)の性能はプロンプトの表現に非常に敏感であり、現実のシナリオにおける信頼性に対する大きな懸念を引き起こす。既存の研究では、しばしばプロンプトをタスクレベルの命令とケースレベルのインプットに分割し、主にタスクレベルの命令のバリエーションに対する堅牢性を評価し改善することに焦点を当てている。しかし、このセットアップは現実世界のユーザクエリの多様性を完全に解決することができず、タスク固有のデータセットの存在を前提としている。これは意味論的に等価なケースレベルのクエリで構成される新しいベンチマークで、モデルパフォーマンスの低いバウンダリを測定するために、最悪のプロンプトパフォーマンスを使用することの重要性を強調します。 ChatGPTのRobostAlpacaEvalと、Llama、Mistral、Gemmaファミリーの6つのオープンソースLCMによる大規模な実験により、モデル性能のかなりの変動が明らかになった。さらに、モデルに依存しない視点とモデルに依存しない視点の両方から最悪のプロンプトを特定することの難しさを説明し、最悪のプロンプトを特徴づけるショートカットがないことを強調する。既存のプロンプトエンジニアリングとプロンプト一貫性メソッドを使用して、最悪のプロンプトパフォーマンスを向上しようともしていますが、その影響は限られています。これらの知見は、多様なプロンプトにまたがって高い性能を維持できる、より回復力のあるLCMを作成する必要性を浮き彫りにしている。データとコードはhttps://github.com/cbwbuaa/On-the-Worst-Prompt- Performance-of-LLMsで入手できる。

関連論文リスト

Evaluating Robustness of Large Language Models in Enterprise Applications: Benchmarks for Perturbation Consistency Across Formats and Languages [0.8895014147059547]
小さな急激な変化でさえ、出力にかなりの違いをもたらす可能性がある。複数の摂動型にまたがるロバスト性を評価するベンチマークスイートを提案する。マイナーな摂動は、主要な企業メトリクスの最大40パーセントのパフォーマンスを低下させることに気付きました。
論文参考訳（メタデータ） (2026-01-09T22:26:31Z)
Quantifying Laziness, Decoding Suboptimality, and Context Degradation in Large Language Models [0.4511923587827302]
大規模言語モデル(LLM)は、遅延性、復号化部分最適化、文脈劣化などの振る舞いのアーチファクトを示すことが多い。以上の結果から, 複雑な多部命令を満足する上で, 広範囲な怠け度が示唆された。遅延を減らし、マルチインストラクションコンプライアンスを強化する戦略を提案する。
論文参考訳（メタデータ） (2025-12-19T03:01:59Z)
On the Role of Difficult Prompts in Self-Play Preference Optimization [62.030268525979274]
本研究では,難易度の異なるプロンプトが自己再生選好の最適化にどのように影響するかを検討する。その結果,難解なプロンプトは自己再生最適化性能が著しく劣っていることがわかった。本稿では,難解なプロンプトが最終性能に与える影響を緩和する戦略を提案する。
論文参考訳（メタデータ） (2025-10-07T02:47:25Z)
Explicit Vulnerability Generation with LLMs: An Investigation Beyond Adversarial Attacks [0.5218155982819203]
大規模言語モデル(LLM)は、コードアシスタントとしてますます使われている。本研究は、より直接的な脅威について検討する。オープンソースのLLMは、トリガー時に脆弱性のあるコードを生成する。
論文参考訳（メタデータ） (2025-07-14T08:36:26Z)
Can Prompt Difficulty be Online Predicted for Accelerating RL Finetuning of Reasoning Models? [65.18157595903124]
本研究では任意のプロンプトの反復的近似評価について検討する。 Model Predictive Prompt Selection (MoPPS)はベイズにおけるリスク予測フレームワークである。 MoPPSは迅速な困難を確実に予測し、ロールアウトを大幅に削減したトレーニングを加速する。
論文参考訳（メタデータ） (2025-07-07T03:20:52Z)
ONLY: One-Layer Intervention Sufficiently Mitigates Hallucinations in Large Vision-Language Models [67.75439511654078]
LVLM(Large Vision-Language Models)は、テキスト応答による画像入力の理解と推論のための新しいパラダイムを導入している。彼らは幻覚という永続的な課題に直面しており、現実のアプリケーションに信頼性のあるデプロイを行うことについて懸念を抱き、実践的な弱点をもたらしている。 OnLYは,1つのクエリと1層の介入しか必要とせず,効率的なリアルタイムデプロイメントを実現するためのトレーニング不要なデコーディング手法である。
論文参考訳（メタデータ） (2025-07-01T16:01:08Z)
Same Question, Different Words: A Latent Adversarial Framework for Prompt Robustness [9.208007322096535]
本稿では,2ループ対向フレームワークであるLatent Adversarial Paraphrasing (LAP)を提案する。 LAPは学習可能な摂動を訓練して「ラテント連続パラフレーズ」として機能させる複数のLLMアーキテクチャにおけるLAPの有効性を示す実験を行った。
論文参考訳（メタデータ） (2025-03-03T09:36:50Z)
Forget What You Know about LLMs Evaluations - LLMs are Like a Chameleon [11.753349115726952]
大規模言語モデル(LLM)は、しばしば公開ベンチマークで優れているように見えるが、これらの高いスコアはデータセット固有のサーフェスキューへの過度な依存を隠蔽する可能性がある。本稿では,ベンチマークプロンプトを歪ませるメタ評価フレームワークであるChameleon Benchmark Overfit Detector (C-BOD)を紹介する。セマンティックコンテンツやラベルを保存しながら入力をリフレッシュすることで、C-BODはモデルのパフォーマンスが記憶パターンによって駆動されるかどうかを明らかにする。
論文参考訳（メタデータ） (2025-02-11T10:43:36Z)
Are Your LLMs Capable of Stable Reasoning? [38.03049704515947]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な進歩を示している。しかし、ベンチマークパフォーマンスと実世界のアプリケーションの間には大きな違いがある。 G-Pass@kはモデルの性能を連続的に評価する新しい評価指標である。本稿では,挑戦的,現代数学的な問題からなる動的ベンチマークであるLiveMathBenchを紹介する。
論文参考訳（メタデータ） (2024-12-17T18:12:47Z)
GReaTer: Gradients over Reasoning Makes Smaller Language Models Strong Prompt Optimizers [52.17222304851524]
本稿では,タスク固有の推論よりも勾配情報を直接組み込む新しいプロンプト最適化手法であるGReaTerを紹介する。 GReaTerはタスク損失勾配を利用して、オープンソースの軽量言語モデルのためのプロンプトの自己最適化を可能にする。 GReaTerは、従来の最先端のプロンプト最適化手法を一貫して上回っている。
論文参考訳（メタデータ） (2024-12-12T20:59:43Z)
VERITAS: A Unified Approach to Reliability Evaluation [26.051109586419308]
大規模言語モデル(LLM)は、しばしばコンテキストから情報を合成して正確な応答を生成するのに失敗する。 VERITASは様々な文脈で柔軟に動作するように設計された幻覚検出モデルのファミリーである。
論文参考訳（メタデータ） (2024-11-05T17:53:25Z)
WILT: A Multi-Turn, Memorization-Robust Inductive Logic Benchmark for LLMs [0.8883751685905831]
メモリ化に抵抗するように設計された,シンプルなマルチターン推論ベンチマークである Wason Inductive Logic Test (WILT) を紹介する。以上の結果から,LSMはこの課題に苦しむことが明らかとなった。これらの変動にもかかわらず、最高の性能モデルは28%の精度しか達成せず、複雑なマルチターン推論タスクにおけるLLM性能の重大なギャップを浮き彫りにしている。
論文参考訳（メタデータ） (2024-10-14T18:29:13Z)
QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文参考訳（メタデータ） (2024-08-20T03:06:48Z)
Cleared for Takeoff? Compositional & Conditional Reasoning may be the Achilles Heel to (Flight-Booking) Language Agents [12.391420075730242]
我々は,人間の認知の2つの基礎となる構成的および条件的推論を研究し,グラウンドココアを紹介した。私たちのタスクは、詳細なユーザの好みと、複数の選択形式で提示される利用可能なフライトオプションを整合させることです。 GPT-4 Turboは, 先進的なプロンプト技術にもかかわらず精度が67%を超えなかった。
論文参考訳（メタデータ） (2024-04-05T17:36:26Z)
RankPrompt: Step-by-Step Comparisons Make Language Models Better Reasoners [38.30539869264287]
大きな言語モデル(LLM)は、様々な推論タスクで素晴らしいパフォーマンスを実現しています。しかし、ChatGPTのような最先端のLCMでさえ、推論プロセス中に論理的な誤りを犯しやすい。新たなプロンプト手法である RankPrompt を導入し,LLM が追加リソースを必要とせずに応答を自己ランクできる手法を提案する。
論文参考訳（メタデータ） (2024-03-19T02:34:18Z)
Revisit Input Perturbation Problems for LLMs: A Unified Robustness Evaluation Framework for Noisy Slot Filling Task [18.623619585980688]
本研究では,大言語モデルの対話理解能力を評価するために,スロット充足タスクに基づく統一ロバストネス評価フレームワークを提案する。具体的には,5種類の単一摂動と4種類の混合摂動データを含む入力摂動評価データセットであるノイズLLMを構築した。本研究の目的は,LLMの様々なロバスト性評価手法が実世界の雑音のシナリオでどの程度機能するかを評価することである。
論文参考訳（メタデータ） (2023-10-10T10:22:05Z)
Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文参考訳（メタデータ） (2023-09-20T09:23:46Z)
Query-Dependent Prompt Evaluation and Optimization with Offline Inverse RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。このような最適化では、以前見過ごされたクエリ依存の目的を特定します。本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文参考訳（メタデータ） (2023-09-13T01:12:52Z)
OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文参考訳（メタデータ） (2023-05-24T10:08:04Z)
LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文参考訳（メタデータ） (2023-05-23T21:50:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。