Fugu-MT 論文翻訳(概要): PromptRobust: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts

論文の概要: PromptRobust: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts

arxiv url: http://arxiv.org/abs/2306.04528v5
Date: Tue, 16 Jul 2024 07:29:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-18 00:10:39.561655
Title: PromptRobust: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts
Title（参考訳）: PromptRobust: 対話型プロンプトにおける大規模言語モデルのロバスト性評価に向けて
Authors: Kaijie Zhu, Jindong Wang, Jiaheng Zhou, Zichen Wang, Hao Chen, Yidong Wang, Linyi Yang, Wei Ye, Yue Zhang, Neil Zhenqiang Gong, Xing Xie,
Abstract要約: 本研究は、文字、単語、文、意味といった複数のレベルにわたるプロンプトを標的とした、敵対的なテキスト攻撃を多用する。相手のプロンプトは、感情分析、自然言語推論、読書理解、機械翻訳、数学の問題解決など様々なタスクに使用される。以上の結果から,現代の大規模言語モデルでは,敵対的プロンプトに対して頑健ではないことが示唆された。
参考スコア（独自算出の注目度）: 76.18347405302728
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The increasing reliance on Large Language Models (LLMs) across academia and industry necessitates a comprehensive understanding of their robustness to prompts. In response to this vital need, we introduce PromptRobust, a robustness benchmark designed to measure LLMs' resilience to adversarial prompts. This study uses a plethora of adversarial textual attacks targeting prompts across multiple levels: character, word, sentence, and semantic. The adversarial prompts, crafted to mimic plausible user errors like typos or synonyms, aim to evaluate how slight deviations can affect LLM outcomes while maintaining semantic integrity. These prompts are then employed in diverse tasks including sentiment analysis, natural language inference, reading comprehension, machine translation, and math problem-solving. Our study generates 4,788 adversarial prompts, meticulously evaluated over 8 tasks and 13 datasets. Our findings demonstrate that contemporary LLMs are not robust to adversarial prompts. Furthermore, we present a comprehensive analysis to understand the mystery behind prompt robustness and its transferability. We then offer insightful robustness analysis and pragmatic recommendations for prompt composition, beneficial to both researchers and everyday users.
Abstract（参考訳）: 学界や業界全体にわたる大規模言語モデル(LLM)への依存度の増加は、その堅牢さをプロンプトに包括的に理解する必要がある。この重要なニーズに対応するために,LLMの弾力性を測定するために設計された頑健性ベンチマークであるPromptRobustを導入する。本研究は、文字、単語、文、意味といった複数のレベルにわたるプロンプトを標的とした、敵対的なテキスト攻撃を多用する。逆のプロンプトは、タイプミスやシノニムなどのユーザエラーを模倣することを目的としており、意味的整合性を維持しながら、LCMの結果にわずかな偏差がどの程度影響するかを評価することを目的としている。これらのプロンプトは、感情分析、自然言語推論、読書理解、機械翻訳、数学の問題解決など様々なタスクに使用される。本研究は,8つのタスクと13のデータセットに対して慎重に評価した4,788の逆のプロンプトを生成する。以上の結果から,現代のLDMは敵のプロンプトに対して堅牢ではないことが示唆された。さらに,素早い強靭性と伝達性の背後にあるミステリーを理解するための包括的解析を行った。次に、洞察に富んだ堅牢性分析と、即興的な構成のための実用的なレコメンデーションを提供し、研究者と日々のユーザーの両方に有益である。

関連論文リスト

Evaluating & Reducing Deceptive Dialogue From Language Models with Multi-turn RL [64.3268313484078]
大規模言語モデル(LLM)は、顧客サポート、教育、医療など、世界中の何百万もの人々と対話する。故意であれ不注意であれ、偽りのアウトプットを生産する能力は、重大な安全上の懸念を生じさせる。本研究では, LLM が会話中の偽装にどの程度関与しているかを考察し, 偽装を定量化する信念の誤調整尺度を提案する。
論文参考訳（メタデータ） (2025-10-16T05:29:36Z)
Flaw or Artifact? Rethinking Prompt Sensitivity in Evaluating LLMs [34.51801559719707]
ハイプロンプト感度は、大規模言語モデルのコアリミットとして広く受け入れられている。広く報告されているハイプロンプト感度は、本当にLLMの本質的な弱点なのか、それとも、主に評価プロセスの成果物なのか? 即発感度の多くは,ログライクなスコアリングや厳密な回答マッチングなど,評価手法に起因していることがわかった。
論文参考訳（メタデータ） (2025-09-01T21:38:28Z)
Publish to Perish: Prompt Injection Attacks on LLM-Assisted Peer Review [17.869642243653985]
大規模言語モデル(LLM)は、科学的なピアレビュープロセスに統合されつつある。本研究は,著者が論文のPDFに敵対的テキストを埋め込む,隠れたプロンプトインジェクション攻撃の可能性について検討する。
論文参考訳（メタデータ） (2025-08-28T14:57:04Z)
A Multi-Task Evaluation of LLMs' Processing of Academic Text Input [6.654906601143054]
大規模な言語モデル(LLM)が科学的な発見にどの程度役立つか、特に学術的な査読を支援することは熱い議論である。我々は、コンピュータサイエンス研究が別々の用語で採用する個々のタスクを、LLMによる学術テキスト入力の処理を評価するためのガイド付きで堅牢なワークフローにまとめる。コンテンツ再生/比較/修正/修正の4つのタスクをLLMの特定の役割を要求される。
論文参考訳（メタデータ） (2025-08-15T19:05:57Z)
TextGames: Learning to Self-Play Text-Based Puzzle Games via Language Model Reasoning [26.680686158061192]
推論は大規模言語モデル(LLM)の基本機能である本稿では,テキストベースのゲームで LLM を評価するためのベンチマークである TextGames を紹介する。以上の結果から,LSMは最も容易かつ中程度の問題に対処する能力を示すが,より困難な課題に直面することが明らかとなった。
論文参考訳（メタデータ） (2025-02-25T18:26:48Z)
Human-Readable Adversarial Prompts: An Investigation into LLM Vulnerabilities Using Situational Context [49.13497493053742]
我々は、より現実的で強力な脅威である、人間が読める敵のプロンプトに焦点を当てている。主な貢献は,(1)映画脚本を文脈として活用し,LLMを欺くような人間可読性プロンプトを生成すること,(2)非感覚的逆接接尾辞を独立した意味のあるテキストに変換するための逆接尾辞変換,(3) p-核サンプリングによるアドブプロンプター,(3)多種多様な人間可読性逆接尾辞を生成する方法である。
論文参考訳（メタデータ） (2024-12-20T21:43:52Z)
Evaluating LLMs for Targeted Concept Simplification for Domain-Specific Texts [53.421616210871704]
コンテクストの欠如と難解な概念に対する不慣れさは、大人の読者がドメイン固有のテキストに難渋する大きな理由である。テキストの書き直しを簡略化し,不慣れな概念を含むテキストの理解を支援する「目標概念の簡略化」を提案する。本研究は,オープンソースおよび商用LLMの性能と,この課題に対する簡単な辞書ベースラインのベンチマークを行う。
論文参考訳（メタデータ） (2024-10-28T05:56:51Z)
ProSA: Assessing and Understanding the Prompt Sensitivity of LLMs [72.13489820420726]
ProSAは、大規模な言語モデルにおいて、迅速な感度を評価し、理解するために設計されたフレームワークである。我々の研究は、データセットやモデル間で迅速に感度が変動することを発見し、より大きなモデルでは堅牢性が向上することを示した。
論文参考訳（メタデータ） (2024-10-16T09:38:13Z)
Understanding the Relationship between Prompts and Response Uncertainty in Large Language Models [55.332004960574004]
大規模言語モデル(LLM)は意思決定に広く使用されているが、特に医療などの重要なタスクにおける信頼性は十分に確立されていない。本稿では,LSMが生成する応答の不確実性が,入力プロンプトで提供される情報とどのように関連しているかを検討する。本稿では,LLMが応答を生成する方法を説明し,プロンプトと応答の不確実性の関係を理解するためのプロンプト応答の概念モデルを提案する。
論文参考訳（メタデータ） (2024-07-20T11:19:58Z)
Measuring and Benchmarking Large Language Models' Capabilities to Generate Persuasive Language [41.052284715017606]
本研究では,Large Language Models (LLM) の説得的テキスト生成能力について検討する。特定のドメインやタイプの説得に焦点を当てた先行研究とは対照的に、諸藩をまたいだ総合的研究を行う。我々は、短いテキストのペア対からなる新しいデータセットPersuasive-Pairを構築し、LLMによって書き直され、説得言語を増幅または縮小する。
論文参考訳（メタデータ） (2024-06-25T17:40:47Z)
RUPBench: Benchmarking Reasoning Under Perturbations for Robustness Evaluation in Large Language Models [12.112914393948415]
RUPBenchは,多種多様な推論タスクにわたる大規模言語モデル(LLM)を評価するために設計されたベンチマークである。我々のベンチマークには15の推論データセットが組み込まれており、コモンセンス、算術、論理、知識集約推論に分類されている。 GPT-4o, Llama3, Phi-3, Gemmaといった最先端のLCMの原文および摂動データセットの性能を調べることにより, その堅牢性およびエラーパターンを詳細に解析する。
論文参考訳（メタデータ） (2024-06-16T17:26:44Z)
From Form(s) to Meaning: Probing the Semantic Depths of Language Models Using Multisense Consistency [13.154753046052527]
言語間の一貫性とパラフレーズに重点を置いています。モデルのマルチセンス一貫性が欠如していることに気付き、検証のためにいくつかのフォローアップ分析を実行する。この観点では、LLMの理解は、一貫性と人間的類似性にはまだ程遠い、と結論付けています。
論文参考訳（メタデータ） (2024-04-18T12:48:17Z)
You don't need a personality test to know these models are unreliable: Assessing the Reliability of Large Language Models on Psychometric Instruments [37.03210795084276]
本稿では, 大規模言語モデルが応答を一貫した, 頑健な方法で引き起こすかどうかを考察する。 17種類のLDM実験により,単純な摂動でさえモデルの問合せ能力を大幅に低下させることが判明した。その結果,現在広く普及しているプロンプトは,モデル知覚を正確にかつ確実に捉えるには不十分であることが示唆された。
論文参考訳（メタデータ） (2023-11-16T09:50:53Z)
Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文参考訳（メタデータ） (2023-09-20T09:23:46Z)
Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。 1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文参考訳（メタデータ） (2023-05-31T10:08:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。