論文の概要: SelfPrompt: Autonomously Evaluating LLM Robustness via Domain-Constrained Knowledge Guidelines and Refined Adversarial Prompts
- arxiv url: http://arxiv.org/abs/2412.00765v1
- Date: Sun, 01 Dec 2024 10:58:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:50:41.391197
- Title: SelfPrompt: Autonomously Evaluating LLM Robustness via Domain-Constrained Knowledge Guidelines and Refined Adversarial Prompts
- Title(参考訳): SelfPrompt: ドメイン制約付き知識ガイドラインと修正逆転プロンプトによるLLMロバストネスの自律的評価
- Authors: Aihua Pei, Zehua Yang, Shunan Zhu, Ruoxi Cheng, Ju Jia,
- Abstract要約: 本稿では,大規模言語モデル(LLM)のロバスト性を自律的に評価する新しいフレームワークを提案する。
本稿では,ドメイン制約付き知識グラフ三重項から記述文を生成し,敵対的プロンプトを定式化する。
この自己評価機構により、LCMは外部ベンチマークを必要とせずにその堅牢性を評価することができる。
- 参考スコア(独自算出の注目度): 0.6291443816903801
- License:
- Abstract: Traditional methods for evaluating the robustness of large language models (LLMs) often rely on standardized benchmarks, which can escalate costs and limit evaluations across varied domains. This paper introduces a novel framework designed to autonomously evaluate the robustness of LLMs by incorporating refined adversarial prompts and domain-constrained knowledge guidelines in the form of knowledge graphs. Our method systematically generates descriptive sentences from domain-constrained knowledge graph triplets to formulate adversarial prompts, enhancing the relevance and challenge of the evaluation. These prompts, generated by the LLM itself and tailored to evaluate its own robustness, undergo a rigorous filtering and refinement process, ensuring that only those with high textual fluency and semantic fidelity are used. This self-evaluation mechanism allows the LLM to evaluate its robustness without the need for external benchmarks. We assess the effectiveness of our framework through extensive testing on both proprietary models like ChatGPT and open-source models such as Llama-3.1, Phi-3, and Mistral. Results confirm that our approach not only reduces dependency on conventional data but also provides a targeted and efficient means of evaluating LLM robustness in constrained domains.
- Abstract(参考訳): 大規模言語モデル(LLM)のロバスト性を評価する従来の手法は、しばしば標準化されたベンチマークに頼っている。
本稿では,LLMの強靭性評価を,知識グラフの形式に改良された対角的プロンプトとドメイン制約付き知識ガイドラインを組み込むことにより,自律的に評価する新しい枠組みを提案する。
提案手法は,ドメイン制約付き知識グラフ三重項から記述文を体系的に生成し,敵対的プロンプトを定式化し,評価の妥当性と課題を高める。
これらのプロンプトはLLM自身によって生成され、自分自身の堅牢性を評価するために調整され、厳密なフィルタリングと洗練プロセスが行われ、高いテキストの流布とセマンティックな忠実さを持つものだけが使用される。
この自己評価機構により、LCMは外部ベンチマークを必要とせずにその堅牢性を評価することができる。
我々は,ChatGPTやLlama-3.1,Phi-3,Mistralといったオープンソースモデルといったプロプライエタリモデルの広範なテストを通じて,フレームワークの有効性を評価する。
その結果,本手法は従来のデータへの依存を減らすだけでなく,制約領域におけるLSMのロバスト性を評価するための目標かつ効率的な手段も提供することがわかった。
関連論文リスト
- Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。
LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文 参考訳(メタデータ) (2025-02-13T03:43:33Z) - Value Compass Leaderboard: A Platform for Fundamental and Validated Evaluation of LLMs Values [76.70893269183684]
大きな言語モデル(LLM)は目覚ましいブレークスルーを達成し、その価値を人間と一致させることが必須になっている。
既存の評価は、バイアスや毒性といった安全性のリスクに焦点を絞っている。
既存のベンチマークはデータ汚染の傾向があります。
個人や文化にまたがる人的価値の多元的性質は、LLM値アライメントの測定において無視される。
論文 参考訳(メタデータ) (2025-01-13T05:53:56Z) - Towards Understanding the Robustness of LLM-based Evaluations under Perturbations [9.944512689015998]
大言語モデル(LLM)は、要約やダイアログベースのタスクにおいて、非標準化メトリクスの自動評価器として機能する。
人間の判断に比較して,LLMが品質評価指標としていかに優れているかを検討するために,複数のプロンプト戦略にまたがる実験を行った。
論文 参考訳(メタデータ) (2024-12-12T13:31:58Z) - The Vulnerability of Language Model Benchmarks: Do They Accurately Reflect True LLM Performance? [1.3810901729134184]
大きな言語モデル(LLM)は、真の言語理解と適応性を示すのに失敗しながら、標準化されたテストで優れている。
NLP評価フレームワークの系統的解析により,評価スペクトルにまたがる広範囲にわたる脆弱性が明らかになった。
我々は、操作に抵抗し、データの汚染を最小限に抑え、ドメイン固有のタスクを評価する新しい評価方法の土台を築いた。
論文 参考訳(メタデータ) (2024-12-02T20:49:21Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - KGPA: Robustness Evaluation for Large Language Models via Cross-Domain Knowledge Graphs [5.798411590796167]
本稿では,敵対的攻撃シナリオ下での大規模言語モデルの堅牢性を体系的に評価する枠組みを提案する。
筆者らの枠組みは知識グラフの三つ子から独自のプロンプトを生成し,毒殺によって敵のプロンプトを生成する。
GPT-4-turbo > GPT-4o > GPT-3.5-turbo としてChatGPTファミリーの対角的ロバスト性が評価された。
論文 参考訳(メタデータ) (2024-06-16T04:48:43Z) - FreeEval: A Modular Framework for Trustworthy and Efficient Evaluation of Large Language Models [36.273451767886726]
FreeEvalは、大規模言語モデルの信頼性と効率的な自動評価を可能にするために設計された、モジュール化されたスケーラブルなフレームワークである。
FreeEvalの統一された抽象化は、統合を単純化し、多様な評価方法論の透明性を改善します。
このフレームワークは、人間の評価やデータ汚染検出などのメタ評価技術を統合し、動的評価モジュールとともに、評価結果の公平性を高める。
論文 参考訳(メタデータ) (2024-04-09T04:17:51Z) - KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。
動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。
5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文 参考訳(メタデータ) (2024-02-23T01:30:39Z) - TrustScore: Reference-Free Evaluation of LLM Response Trustworthiness [58.721012475577716]
大規模言語モデル(LLM)は、様々な領域にまたがる印象的な能力を示しており、その実践的応用が急増している。
本稿では,行動整合性の概念に基づくフレームワークであるTrustScoreを紹介する。
論文 参考訳(メタデータ) (2024-02-19T21:12:14Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。